您现在的位置是：首页 > 后端

当前栏目

《UC-Net：Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders》论文笔记

Net 论文笔记 Detection rgb via UC Conditional

2023-09-11 14:22:28 时间

参考代码：UC-Net

1. 概述

导读：这篇文章研究的是RGB-D数据的显著性目标检测问题，其中的D代表的是深度图，可以通过如Kinect之类的深度传感器/深度估计网络等得到。在之前RGB-D显著性目标检测算法中一般将显著性目标当成为决策性的像素点估计问题，因而对于每个输入的样本数据都只会生成一个固定的显著性目标检测结果。其实要是对于显著性目标的结果具有较为明确的判断准则，那么这样的方式本身也没有什么问题。但是关键却是在显著性目标的标注问题上，不同人对同一幅图的显著性目标确定可能会存在差异，这就导致了使用上述算法得到的显著性目标并不是很准确。对此文章将原来的决策性检测问题通过条件变分自动编码器（CVAE）变化为基于概率模型的检测问题，因而可以对于同一张图在latent space上进行采样，从而生成多个不同的显著性目标检测结果，之后通过多数投票的方式保持显著性目标的一致性（salient concensus）。此外，文章通过遮挡之后迭代进行显著性目标检测从而得到一张图的多个显著性目标结果。

通过在RGB图像基础上引入深度图像可以极大提升显著性目标检测的准确度，但是由于人员在标注过程中存在主观判断差异与评判标准模糊，使用传统的显著性目标检测算法可能会存在结果上的歧义问题，因为算法只呈现了一个结果。这篇文章通过CAVE引入概率模型，通过采样得到多个显著性目标的结果，见下图1所示：
在这里插入图片描述
文章的算法会得到多个显著性目标，之后会通过显著性目标一致性（投票机制）得到最后的显著性目标。对于CVAE中的条件部分文章是通过遮挡显著性目标多次进行检测得到的，从而使得对于单张训练图片有多个显著性目标检测结果。此外，由于直接引入深度信息会导致较多的噪声，因而文章还提出了一种深度信息优化网络（depth correction network）得到丰富的语义与几何信息。

2. 方法设计

2.1 整体pipline

使用 $\xi=\{X_i,Y_i\}_{i=1}^N$ 表示训练的数据对，其中 $X_i=\{I_i,D_i\}$ 由RGB图像和深度图像组成的RGB-D数据。文章的整体算法流程见下图所示：
在这里插入图片描述
上面复杂的算法pipline主要由下面的几个子功能模块组成：

1）由先验网络PriorNet和后验网络PosteriorNet组成LatentNet，分别去映射 $X_i$ （对于PriorNet）和数据对 $X_i,Y_i)$ （对于PosteriorNet）得到latent space下的数据 $z_i\in R^K$ ，用来表示两者之间的数据分布；
2）使用 $I_i,D_I$ 输入到DepthCorrectionNet中得到优化之后的深度图像 $D_i^{‘}$ ，用以排除原始深度图像噪声，丰富语义和深度信息；
3）使用 $D_i^{‘},I_i$ 输入到SaliencyNet得到saliency的特征图 $S_i^d$ ；
4）使用在latent space采样得到的 $S_i^s$ 和 $S_i^d$ 通过预测网络PredictionNet得到最后的显著性目标结果；

其测试的时候使用的是在latent space进行多次采样得到多个显著性目标结果，之后使用saliency concensus（多数投票）的方式得到最后的结果，其pipline见下图所示：

在这里插入图片描述

2.2 网络的各组成部分

LatentNet：
文中的CAVE包含三个部分：

1）由PriorNet（由五个卷积层组成）将输入的RGB-D数据映射到先验概率分布 $P_{\theta}(z|X),z\sim\mathcal{N}(\mu,diag(\sigma^2))$ 。其中 $\mu,\sigma\in R^K,K=8$ ， $\theta$ 是可学习的网络参数；
2）由PosteriorNet将输入的 ${X_i,Y_i\}$ 映射到数据分布 $Q_{\phi}(z|X,Y)$ ， $\phi$ 是可学习的网络参数；
3）由latent space采样得到的数据经过解码器得到真实显著性目标分布 $P_w(Y|X,z)$ ；

对于上面提到的LatentNet，其具体结构见下图所示：
在这里插入图片描述
之后根据CAVE的训练监督逻辑，可以得到下面的损失表达形式：
$L_{CVAE}=E_{z~Q_{\phi}(z|X,Y)}[-logP_w(Y|X,z)]+D_{KL}(Q_{\phi}(z|X,Y)||P_{\theta}(z|X))$
对于上面提到的条件部分（也就是一个图像中对应多个显著性目标）文章是通过遮挡之后再检测得到的，具体见下图所示：
在这里插入图片描述
在文章中通过上述的过程总共得到4个显著性目标用于训练CVAE。

SaliencyNet：
文章的这部分网络是通过VGG16与DenseASPP构建的，最后得到特征图 $S^d$ ，它是channel为 $M = 32$ 的数据，其结构见下图所示：
在这里插入图片描述
输入的RGB-D数据经过LatentNet之后得到一个样本分布 $(\mu_{prior}^k,\sigma_{prior}^k)$ ，之后在其基础上通过 $\eta\in\mathcal{N}(0,I)$ 进行参数重采样得到抽样样本 $z^k=\sigma_{prior}^k\cdot\eta+\mu_{prior}^k$ ，之后将 $z^k$ 进行扩充得到包含 $K$ 个channel的样本数据 $S^d$ 。

PredictionNet：
将上述提到的 $S^d$ 和 $S^s$ 进行混合（channel上concat）得到channel为 $K + M$ 数据 $S^{sd}$ 。为了防止训练过程中网络天然偏向于saliency的特征，从而忽略了条件变量，文章还将其在channel上进行重排序，从而将其shuffle之后混合得到数据 $S^{msd}$ ，之后通过解码器得到显著性目标检测结果。

DepthCorrectionNet：
为了优化原始的深度信息 $D$ ，文章使用该网络进行优化深度信息的表达。该网络会预测得到一个新的深度信息 $D^{‘}$ ，它会与原始的深度信息计算 $L_1$ 损失 $L_{sl}$ 。为了使得在深度信息上能够体现出物体的边界信息，文章还引入了Boundary IoU损失 $L_{IoUb}$ ，对于这里提到的intensity图 $I_g$ ，其是在原始RGB空间变换过来的，其计算过程描述为：
$I_g=0.2126*I^{lr}+0.7152*I^{lg}+0.0722*I^{lb}$
其中， $I^{lr},I^{lg},I^{lb}$ 代表的是三个颜色通道上的变换结果，其变换过程描述为：
在这里插入图片描述

上面是对红色通道的计算，对于蓝绿通道的计算也是类似的。

之后计算 $I_g$ 和 $D^{‘}$ 的梯度信息，得到 $gD^{‘}$ 和 $g I$ ，因而上面的Boundary IoU损失描述为：
$L_{IoUb}=1-2\frac{|gD^{‘}\cap gI|}{|gD^{‘}|+|gI|}$
因而，深度部分的损失函数描述为：
$L_{Depth}=L_{sl}+L_{IoUb}$

2.3 显著性检测结果的一致性

在latent space经过 $C$ 次采样之后会得到预测结果 ${P^c\}_{c=1}^C$ ，之后在这些结果上使用文章提到的自适应阈值方法得到二值结果 $P_b^c$ ，这些多个检测结果经过多数表决之后得到多数表决的结果 $P_b^{mjv}$ ，之后通过操作 $\mathcal{1}^c(u,v)=\mathcal{1}(P_b^c(u,v)=P_b^{mjv}(u,v))$ （内部条件满足为1否则为0）进行最后计算：
$P_g^{mjv}(u,v)=\frac{\sum_{c=1}^C\mathcal{1}^c(u,v)}{C}\sum_{c=1}^C(P_b^c(u,v)*\mathcal{1}^c(u,v))$

2.4 网络的损失函数

得到显著性目标检测结果之后使用下面的损失进行监督：
$L_{Smooth}=\sum_{u,v}\sum_{d\in\vec{x},\vec{y}}\Phi(|\partial_dP_{u,v}|e^{-\alpha|\partial_dI_g(u,v)|}||)$
其中， $\Phi(s)=\sqrt{s^2+1-e^{-6}}$ ， $\alpha=10$ 。则整个网络的损失函数描述为：
$L=L_{CAVE}+\lambda L_{Depth}+\lambda L_{Smooth}$
其中， $\lambda=0.3$ 。

3. 实验结果

在这里插入图片描述

猜你喜欢

hdu 1856 More is better(并查集)
第一篇：践履实录2006-2013
SwiftUI 制作苹果屏幕录制大师App(教程含源码)ReplayKit
PHP this.self.parent的区别
tinymce 5更新后，如何使用tinymce-vue
从DBA管理角度，看12c那些令人倾心的内存新特性
macOS SwiftUI 教程之 11 网格线grid line（教程含源码）
Appearance Customization (Appkit 中文文档手册教程含源码）
邮件订阅设计测试用例Xmind
【bzoj4942】[Noi2017]整数压位+线段树
赛道一出，今后无需再熬夜
小记：《技术进步引发的灵感革命》网易游戏学院第二届公开日
FireDAC 下的 Sqlite [8] - 自定义函数

相关主题

U-2-Net
ASP.NET_.NET
.NET 7正式发布
.net core的安装
net
asp .net core 中间件
ASP.NET Core 静态文件
笔记笔记笔记
.net 多线程
.NET反射
.Net Core 多语言
C#.NET.JSON库
.net中的泛型
【.Net】Net开发
U-Net论文笔记

zl程序教程

当前栏目

《UC-Net：Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders》论文笔记

1. 概述

2. 方法设计

2.1 整体pipline

2.2 网络的各组成部分

2.3 显著性检测结果的一致性

2.4 网络的损失函数

3. 实验结果

相关文章