您现在的位置是：首页 > 其他

当前栏目

《Unsupervised Monocular Depth Learning in Dynamic Scenes》论文笔记

论文笔记 in learning Dynamic depth

2023-09-11 14:22:28 时间

1. 概述

导读：这篇文章是在（Depth from Videos in the Wild）的基础上进行改进得到的，在之前的文章中运动区域/物体通过mask标注或是bounding box标注的形式确定，但是这样或多或少会存在对外依赖的问题。对此，文章从 刚性物体运动 在相机前运动的特性进行分析得出如下两个特性：
1）其在整幅图像中的占比是较少的，毕竟一般情况下不会运动的背景占据了较大的比例；
2）刚性运动的物体其内部运动特性是分段的常量值，也就是对应的梯度变化很小；
正是基于上述两点观察，文章在之前文章的基础上对运动物体区域构建了一个约束，从而减少了运动物体会深度估计带来的影响。

文章的方式是通过隐式约束的形式对刚性物体运动区域进行约束，从而避免了显示地对运动区域标注，因而文章的方法可以在输入2帧图像的情况下实现深度预测和物体运动感知，如下图所示：
在这里插入图片描述

2. 方法设计

2.1 网络结构

文章的网络结构如下图所示：
在这里插入图片描述
整体上这里网络结构与之前文章（Depth from Videos in the Wild）的网络结构类似，只是在一些细节上有所区别。这里深度估计网络的编解码结构是一致的，主要的不同点在相机位姿和内参估计网络上，在原本两帧图像输入基础上添加了深度估计结果作为输入。

2.2 损失函数

深度图平滑损失：
这部分损失是为了给深度估计结果带来平滑作用，减少噪声的产生，其损失函数描述为：
$L_{reg,dep}=\alpha_{dep}\iint(|\partial_ud(u,v)e^{-\partial_uI(u,v)}+\partial_vd(u,v)e^{-\partial_vI(u,v)}|d_ud_v$

循环一致性损失：
首先是变换矩阵的循环一致性约束，其描述为：
$L_{cyc}=\alpha_{cyc}\frac{||RR_{inv}-\mathbf{1}||^2}{||R-\mathbf{1}||^2+||R_{inv}-\mathbf{1}||^2}+\beta_{cyc}\iint\frac{||R_{inv}T(u,v)+T_{inv}(u_{warp},v_{warp})||^2}{||T(u,v)||^2+||T_{inv}(u_{warp},v_{warp})||^2}d_ud_v$
图像域的循环一致性约束，描述为：
$L_{rgb}=\alpha_{rgb}\iint|I(u,v)-I_{warp}(u,v)|\mathbf{1}_{D_{u,v}\gt D_{warp}(u,v)}d_ud_v+\beta_{rgb}\frac{1-\mathcal{SSIM(I,I_{warp})}}{2}$

物体移动约束损失：
这部分损失主要是完成下面的两个作用：

1）根据上文提到的稀疏特性，对运动场做稀疏化约束，这里使用的 $L{\frac{1}{2}}$ ，文章指出该函数具有更好的稀疏特性；
2）基于刚性物体运动的分析，对刚性物体运动场施加梯度损失，使其在分布呈现分段的常量值特性；

首先对于常量值特性，添加梯度约束：
$L_{g1}[T(u,v)]=\sum_{i\in \{x,y,z\}}\iint \sqrt{(\partial_uT_i(u,v))^2+(\partial_vT_i(u,v))^2}d_ud_v$

接下来对稀疏化添加约束：
$L_{\frac{1}{2}}[T(u,v)]=2\sum_{i\in \{x,y,z\}}\langle|T_i|\rangle\iint \sqrt{(1+\frac{|T_i(u,v)|}{\langle|T_i|\rangle}}d_ud_v$

则这部分整体的损失函数描述为：
$L_{reg,mot}\alpha_{mot}L_{g1}[T_{obj}(u,v)]+\beta_{mot}L_{\frac{1}{2}}[T_{obj}(u,v)]$
则对应的损失函数实现可以参考：

# losses/loss_aggregator.py#L283
normalized_trans = regularizers.normalize_motion_map(
    residual_translation, translation)
self._losses['motion_smoothing'] += scale_w * regularizers.l1smoothness(  # 对应公式2，分段常量值约束
    normalized_trans, self._weights.motion_drift == 0)
self._losses['motion_drift'] += scale_w * regularizers.sqrt_sparsity(  # 对应公式3，稀疏性约束
    normalized_trans)

上面提到的几点约束的消融实验结果：
在这里插入图片描述

3. 实验结果

Cityscapes数据集上性能对比：
在这里插入图片描述
KITTI数据集上性能对比：

猜你喜欢

HTTP API 设计指南（结尾）
Celery学习--- Celery操作之定时任务
php设计模式-单例模式
在Linux中常用的启动引导工具：grub和lilo
OKR
吐鲁番市欲打造光伏领跑者基地
iOS kvo 结合 FBKVOController 的使用
SQL教程之使用 SQL 进行产品销售分析典型案例
【网站制作】二、实战 - B站首页导航栏
《惢客创业日记》2020.09.01（周二）这本书有5厘米厚
非常不错的一个图片资源库
零售银行如何玩转大数据
NLP常用语料集合
Redis内部实现文档
大型企业采购云管理平台的诉求分析-行云管家
Ubuntu 18.04 使用Systemd管理MySQL 5.6
怎么让 Lua 5.3.4 支持中文变量名和中文函数名
Android5.0之Activity的转场动画
arduino输出中文到串口助手乱码问题(已解决)
软件测试项目经理主要工作及职责

相关主题

写论文的笔记
论文阅读笔记
论文阅读
笔记笔记笔记
论文笔记
论文写作
笔记笔记
ChatGPT写小论文
AI~N篇论文1
U-Net论文笔记

zl程序教程