即插即用的视频深度预测框架是什么

发布时间:2024-04-19  

(1) 我们提出了第一个即插即用的learning-based的视频深度框架NVDS。可以用于任意的单目图像深度预测模型,去除时域抖动增强帧间一致性。

(2) 我们提出的Video Depth in the Wild(VDW) 数据集,是当前体量最大场景最丰富的自然场景视频深度数据集。

如下图,与之前的视频深度预测方法相比,本文方法NVDS在空间精度,时域平滑性,和推理效率上,均有提升显著。同时,本文提出的Video Depth in the Wild(VDW) 数据集,是当前体量最大场景最丰富的自然场景视频深度数据集。

4c5b9736-29f8-11ee-a368-dac502259ad0.png

1. 任务背景与动机 

视频深度预测对许多下游任务(例如视频散景渲染,3D视频合成,视频特效生成等)具有重要的影响。理想的视频深度预测模型需要解决两个问题:(1) 深度的空间准确; (2) 帧间的时域一致。近些年来,单目图像深度预测算法已经显著提升了空间准确性,但如何去除抖动提升帧间时域的一致性仍是一个困难的问题。

主流的视频深度预测方法依赖于Test-time Training。他们在推理时,通过几何约束和相机参数,迫使一个单目图像深度预测模型过拟合当前特定测试视频的时域关系。这样做有两个明显的缺点:(1)鲁棒性差。相机参数在许多视频中往往难以做到准确可靠,而导致CVD,Robust-CVD等方法,产生明显的artifact和完全错误的预测结果; (2)效率很低。以CVD为例,其在四张Tesla M40 GPU上处理一段244帧的视频,需要超过四十分钟的时间。

因此,很自然的一个想法是,我们能否建立learning-based的视频深度预测方法,能够直接在数据集上学习到时域一致性的能力和先验,直接预测得到较好的结果,而不需要Test-time Training。那与所有的深度学习算法一样,设计和实现这样的learning-based的视频深度方法,就需要处理两个核心问题:(1)合理的模型设计,能够建模帧间依赖关系,提升预测结果的一致性; (2) 充足的训练数据,训练和激发模型的最佳性能。遗憾的是,之前的learning-based视频深度方法,其性能仍不如Test-time Training的方法,结果设计的有效性仍需要继续研究和探索。由于标注代价很大,已有的视频深度数据集在数据体量和场景丰富度上仍然较为有限。

2. 方法与贡献   

为了解决上述的两个核心挑战,我们做出了两点贡献:

(1) 我们提出了第一个即插即用的learning-based的视频深度框架NVDS。NVDS包含一个depth predictor和一个stabilization network。其中,stabilization network可以直接被用到任意的单目图像深度预测模型上,去除时域抖动帧间一致性。之前所有的learning-based的视频深度预测模型都是独立的(stand-alone)模型,其空间性能无法受益于sota的单目图像模型,反之无法对大量已有的单目图像模型进行平滑稳定。而NVDS的方法,打破了单目图像深度预测和单目视频深度预测的壁垒,一方面能够受益于各种高精度的单图模型,反之能对任意的单图模型进行平滑稳定,实现了互相的促进和双赢。对于stabilization network ,我们采用了cross-attention建模关键帧(key frame)和参考帧(target frame)的帧间关系。同时,我们设计了双向预测的机制来扩大时域感受野,进一步提升一致性。

wKgZomTS8-SAe2OXAAZAD295GoU403.png

(2) 我们提出了Video Depth in the Wild(VDW) 数据集,是当前体量最大场景最丰富的自然场景视频深度数据集。由于巨大的标注代价,当前已有的视频深度数据集大多数都是封闭场景的。而少数的几个自然场景的视频深度数据集,其体量和丰富度还远远不足。例如Sintel只包含23段动画视频。我们的VDW数据集,采集自电影、动画、纪录片、网络视频等多种数据源,包含超过200小时的14203段视频,总计223万帧。我们还设计了天空分割投票等机制,以及严格的数据筛选和标注流程,来保证我们数据的精度。下图包含数据集的部分示例,分别来自网络视频、纪录片、动画、电影。

wKgZomTS88KAF67_AALhxvPUrlI623.png

3.实验概述:方法部分   

在实验方面,我们在VDW数据集,以及公开的Sintel和NYUDV2数据集上,均取得了SOTA的空间精度和时域一致性。其中VDW和Sintel为自然场景数据集。对于封闭场景数据例如NYUDV2,不使用我们的VDW数据集而只用统一的NYUDV2训练集进行训练,已经能取得SOTA的性能;而用我们的VDW数据集预训练,再在封闭场景的NYUDV2进行finetune,则能够进一步提升模型的性能表现。

4c7d9264-29f8-11ee-a368-dac502259ad0.png

同时为了证明我们即插即用的有效性,我们采用了三个不同的depth predictor进行实验,我们的NVDS均取得了显著的提升。

4c865a2a-29f8-11ee-a368-dac502259ad0.png

我们还通过ablation证明了双向inference的有效性。单向的(Forward或backward)预测已经能够得到令人满意的一致性,而双向inference能够进一步扩大时域感受野,提升一致性。

4c8f9dc4-29f8-11ee-a368-dac502259ad0.png

部分定性结果如下图所示,我们NVDS的方法取得了显著的提升。每组例子左侧为RGB帧,右侧为视频时域切片。切片中更少的条纹表征了更好的一致性和稳定性。更多可视化结果请参考我们的论文、补充材料、成果视频。

wKgZomTS8_mAPbkTAAlIP7Kj0vo101.png

4. 实验概述:数据集部分  

对于VDW数据集,我们比较了当前已有的视频深度数据集。我们的VDW数据集是目前体量最大、场景最丰富的自然场景视频深度数据集。

4ca3e6b2-29f8-11ee-a368-dac502259ad0.png

我们还探究了使用不同数据对模型进行训练的效果,由于我们的VDW数据集具有最佳的体量和场景丰富度,因此对于相同的模型,使用VDW数据集进行训练取得了最优性能。

4cab4970-29f8-11ee-a368-dac502259ad0.png

而对于数据集的统计实验,我们绘制了数据集的物体类别词云,以及语义类别统计图等。更多的数据集统计结果和示例请见论文和补充材料。

4cb47680-29f8-11ee-a368-dac502259ad0.png

4cc04b72-29f8-11ee-a368-dac502259ad0.png

5. 代码与数据集开源 

我们的代码已经开源:

https://github.com/RaymondWang987/NVDS

数据集正在搭建VDW的官方网站,并拟定相应的开源协议,准备好后会马上进行发布。我们的数据集体量较大,因此网站搭建和数据传输仍需要一定的时间,我们会对数据进行分割并逐步上传。VDW数据集可以被用于学术和研究用途,但不能用于商业用途。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>