您现在的位置是：首页 > 后端

当前栏目

STS：Surround-view Temporal Stereo for Multi-view 3D Detection——论文笔记

3D 论文笔记 for View multi Detection STS

2023-09-11 14:22:28 时间

参考代码：None

1. 概述

介绍：这篇文章提出的方法是对LSS中深度估计部分进行改进，其改进的点是在深度估计部分引入立体匹配去估计周视相机下的深度信息，其中立体匹配使用前后视频帧进行构建（可以看作是时序信息的使用，只不过只有两帧信息）。此外，引入DORN中的深度采样策略（SID，Spacing-Increasing Discretization）使得近处的采样点不至于过度稀疏，为了弥补在无纹理下立体匹配失效的情况，同时保留原本LSS中的深度估计模块，将其立体匹配估计出的深度进行融合得到最后更准确地深度表达。不过存在需要知道准确帧间 $[R ∣ t]$ 的问题，在实际工程化中是较难实现的。

对于从相机中恢复深度信息，其来源可以划分为如下几种情况：
在这里插入图片描述

a）给定基线下的双目立体匹配。
b）给定多个相机位姿关系的MVS算法。
c）使用单个相机从运动中恢复深度，但是需要给出帧与帧之间的位姿变换关系。
d）自动驾驶场景下将周视相机作为一个整体，使用类似运动中恢复深度的策略得到各个相机下的深度信息。

2. 方法设计

2.1 整体pipeline

由文章方法构建的BEV检测算法pipeline见下图所示：
在这里插入图片描述
从文中可以看到相比原本的LSS算法，其增加了使用之前帧构建立体匹配（STS，Surround-view Temporal Stereo）去估计深度信息，之后再与原本的深度估计模块结果进行融合。

2.2 STS构建

STS部分的处理流程见下图所示：
在这里插入图片描述
输入的周视图像会被backbone处理抽取图像特征 $F_i\in R^{C_F*\frac{H}{n}*\frac{W}{n}}$ ，那么使用当前帧（reference） 和 之前帧（source） 的特征就可以在给定的深度划分（ $D$ ） 上计算匹配特征了。但是在这之前需要完成当前帧到之前帧的warp操作（这里会计算source中），这里使用source中 $j$ 个相机到reference中第 $i$ 个相机的转换，记为 $H_{ij}$
$H_{ij}(d)=K_j\cdot R_j\cdot (I-\frac{(T_i-T_j)\cdot n_{1}^T}{d})\cdot R_i^T\cdot K_i^{-1}$
则，reference中的特征到source下的特征转换被描述为：
$P_{ij}^{source}=H_{ij}\cdot P_i^{ref},\ j=1,\dots,N$
完成reference到source的投影之后，对于source中的第 $i$ 个相机，只会考虑有效的投影点 $P_{ij}^{\hat{source}}$ ，这些投影点组成warp之后的特征 $V_i\in R^{C_F*D^{'}*\frac{H}{n}*\frac{W}{n}}$ 。之后再与source中的特征进行分组计算cost volume：
$S_i^g=\frac{1}{C_F/G}\langle F_i\cdot V_i\rangle$
其中 $\langle \cdot \rangle$ 代表矩阵内积，之后这些特征就会经过几层3D卷积之后被用于去计算stereo matching下的深度预测结果了。

在上面构建cost volume的时候是按照给定的深度进行划分的，通常采用的是深度方向上均匀划分的方案，但是这种方案由于相机的投影过程会导致近处变得稀疏，如下图中中间的效果所示：
在这里插入图片描述
对此，文章采用SID的方法进行投影，在给定最大最小深度值和需要划分的深度bins下其划分准则被描述为：
$d_k=exp(log(D_{min})+\frac{log(\frac{D_{max}}{D_{min}})*k}{C_D}), k=1,\dots,D$
这里的采样方法对性能带来的影响：
在这里插入图片描述
STS部分输出第 $i$ 个相机深度估计结果被描述为 $D_i^{stereo}$ 。

2.3 深度结果融合

在STS中输出 $D_i^{stereo}$ ，将其与LSS中原本的深度估计结果 $D_i^{mono}$ 进行融合，其融合策略为：
$D_i^{pred}=\sigma(D_i^{stereo}+D_i^{mono})$
深度估计结果融合之后的深度估计性能表现：
在这里插入图片描述
对于检测性能的影响：

3. 实验结果

在这里插入图片描述

猜你喜欢

对EasyDarwin开源项目后续发展的思考：站在巨人的肩膀上再跳上另一个更高的肩膀
基础算法练习200题13、判断质数
【ML】第 2 章：PySpark 简介
快速书写常见的 Kotlin 代码 MD
could not change product header data even after switching to change mode
Angular 服务器端渲染的一个错误消息 - No provider for InjectionToken REQUEST
Java实现 LeetCode 135 分发糖果
《论文阅读》Generating Responses with a Specific Emotion in Dialog
【gRPC】第1篇全面讲解RPC原理（必收藏）
常见后台jquery ui tabs方法实战
SAP UI5 应用如何加载自定义 Theme
C# App.config 详解
编写Python脚本把sqlAlchemy对象转换成dict的教程
atitit.基于虚拟机的启动器设计 --java 启动器 java生成exe
【Android Gradle 插件】自定义 Gradle 插件模块 ④ ( META-INF 中声明自定义插件的核心类 | 在应用中依赖本地 Maven 仓库中的自定义 Gradle 插件 )
Angular input控件的click事件表达式如何被转换成JavaScript函数
ffmpeg编译配置srt模块
PostgreSQL基础命令教程：创建新用户admin来访问PostgreSQL
Java实现蓝桥杯算法提高 7-1用宏求球的体积
长表达式要在低优先级操作符处拆分成新行

相关主题

笔记笔记笔记

zl程序教程