您现在的位置是：首页 > 其他

当前栏目

《WSVD：Web Stereo Video Supervision for Depth Prediction from Dynamic Scenes》论文笔记

论文笔记 Web for from Dynamic Video depth

2023-09-11 14:22:28 时间

参考代码：wsvd_test

1. 概述

导读：在这篇文章中提出了一种基于光流估计的深度估计网络。该方法首先使用左右双目图像作为输入，并从中估计出光流信息，之后按照估计的光流对图像进行warp，这样就得到深度估计网络需要的3个（warp之后的图像1、光流、图像2）输入。接下来经过编解码网络之后实现对深度的估计。同时为了获得大量且场景多样化的双目3D（左右）图像，文章通过在YouTube中筛选的方式确定了文章使用的WSVD数据集。由于这些数据来源是未知的（其中的焦距、基线等）所以文章提出了一种以归一化梯度为主的损失函数。

文章深度估计方法是属于回归类型的，通过使用场景多样的WSVD数据集以及对相机参数不敏感的梯度损失函数实现监督，从而得到相对鲁棒的深度估计结果。文章的效果可参见下图：
在这里插入图片描述
同时对WSVD数据集中的场景分布进行统计，可以得到下面的统计结果（字越大代表的占有的比例越大），参考下图：

2. 方法设计

2.1 方法pipline

在这里插入图片描述
文章提出的pipeline结构如上图，通过FlowNet2生成编解码网络所需的3个输入，之后通过梯度损失函数进行监督。

2.2 损失函数

在双目系统下深度可以通过几个变量描述：
$q=\frac{d-(c_x^R-c_x^L)}{fb}$
其中， $f b$ 代表的是焦距和基线， $d_{min}=c_x^R-c_x^L$ 是图像对中的最小视差。但是上述关系中涉及到的3个变量是未知的，对此文章提出从梯度角度出发提出一种基于梯度的深度监督损失（NMG，normalized multiscale gradient）。这里监督是使用网络估计出的深度和视差图在梯度上进行回归，其损失函数描述为：
$L=\sum_k\sum_i|s\nabla_x^kq_i-\nabla_x^kd_i|+|s\nabla_y^kq_i-\nabla_y^kd_i|$
其中， $\nabla_x^k,\nabla_y^k$ 代表的是在不空的尺度 $k=\{2,8,32,64\}$ 下的图像梯度。其中的尺度因子计算描述为：
$s=\frac{\sum_k\sum_i|\nabla_x^kd_i|+\sum_k\sum_i|\nabla_y^kd_i|}{\sum_k\sum_i|\nabla_x^kq_i|+\sum_k\sum_i|\nabla_y^kq_i|}$
文章损失函数与ranking loss的比较：
在这里插入图片描述

3. 实验结果

在这里插入图片描述

猜你喜欢

作为高级开发工程师，你懂 JVM 参数吗？
物联网和大数据如何改善食品安全？
date和time
阿里巴巴集团技术委员会主席王坚：我曾经被诺贝尔奖得主司马贺忽悠，相信人工智能就是未来！
谷歌做了两年“小程序”，终于要深度整合到安卓和Windows系统中了
P8H61 换 CPU，升级 BIOS，IDE 转 AHCI
document.referrer
python入门教程
Python for循环的用法，怎么前面还有一个变量或函数？
1120 Friend Numbers (20 分)【难度: 简单 / 知识点: 哈希表】
xmemcached发布1.3.6
【毕业设计_课程设计】位置信息管理网站设计（源码+论文）
pytorch中checkpoint使用
[LeetCode] 845. Longest Mountain in Array 数组中最长的山
MetraLabs TORY RFID库存机器人使用效果良好

相关主题

论文查重
写论文的笔记
关于论文
论文阅读笔记
笔记笔记笔记
论文笔记
笔记笔记
论文总结1
U-Net论文笔记

zl程序教程