您现在的位置是：首页 > 其他

当前栏目

《Fast User-Guided Video Object Segmentation by Interaction-and-Propagation Networks》论文笔记

论文笔记 and object by user Video Networks

2023-09-11 14:22:29 时间

参考代码：暂无

1. 概述

导读：这篇文章提出了一种交互式的视频目标分割算法，方法由两个网络组建部分构成：交互式子网络（interaction）和分割子网络（propagation）。交互子网络用于将用户提供的交互信息（涂鸦、bounding box等）转化为前景目标；分割子网络将分割的目标mask在原帧与邻近帧之间传递，实现目标分割。而这两个子网络是组合进行训练的，防止了单独进行训练带来的不稳定情况。此外，在网络改进的基础上还提出了一种multi-round的训练方法，就是在多次训练round中添加交互信息，指导达到想要的效果，也是为实际中多次交互分割进行模拟，期待达到更好的性能。这篇文章的方法在DAVIS 2018数据集上速度与精度方面均超越了先前的分割方法。

文章算法的运行过程（往复地）见下图1所示：
在这里插入图片描述

2. 方法设计

这篇文章的算法是基于ResNet-50的编解码结构网络，输入部分使用了RoI Align操作使得网络可以更加关注有效区域，给出的网络结构见下图（a）（b）图所示：
在这里插入图片描述
对于其中的decoder模块其结构为：

在实际的运算过程中，训练的时序会前后颠倒，也就是进行往复训练，其中会使用用户的交互信息进行修正。这也是文章指出的使用可信赖的视觉信息来生成效果更好的结果，而这一部分可信赖的信息就是来自于交互子网络部分，文章指出其是通过Feature Aggregation Module进行融合的，从而将交互信息引入到目标分割网络中去。

对于多类分割的情况，文章会首先预测出每个类的分割结果，之后再将这些结果经过soft aggregation融合起来得到最后结果。

2.1 网络细节

交互子网络
交互子网络的输入有6个channel，除了输入的RGB RoI之外还有另外3个通道：前一round的mask输出概率图（其中的值介于0到1之间）、2份代表正负样本区域的二值标注图，从而得到对应的输入数据 $X_i\in R^{6*H*w}$ ，其中对于第一round（由于没有对应的mask），因而这里的输入概率图中的所有像素全部被置位0.5。最后，得到的输出结果为 $\hat{Y_i}\in R^{H*W}$ 。

分割子网络
这一部分的分割子网络与交互子网络输入类似，不错这里由6个channel变为了5个channel，除了RGBchannel多出来的为：前一帧的分割mask与前一轮的分割mask，则输入为 $X_p\in R^{5*H*W}$ 。

Feature Aggregation Module
为了有效利用用户交互的信息，文章针对应的设计了这个模块，它是将交互网络编码器的输出当做是clue或者成为reference，其结构见下图所示：
在这里插入图片描述
在上面的结构中分割子网路与交互子网络的特征经过池化、全连接等操作之后可到一个在每个channel上2维的特征，之后经过softmax保证2维度上的值相加为1，之后使用这两维度的值作为权值将之前输入的两个特征做channel-wise的加权和，之后再送入到decoder中去。

Region of Interest
在分割算法中对于小目标与过大的目标处理起来是有难度的，但是知道图像中的RoI的位置这样就好办很多了。在这篇文章中使用了3个clue：用户的交互信息、前一round的mask输出、前一帧的mask输出，从而就可以得到一个box的RoI，之后将其经过双线性插值得到 $256 * 256$ 的图像送入encoder中。反向映射也参考这部分工作。

2.2 网络训练与数据合成

训练策略
为了更好适应用户在测试过程中多次进行交互，并且对这些交互进行反馈，文章在训练的过程中人为地去模拟了这个过程提出了multi-round的训练策略，在这个策略中将分割与交互子网络联合训练，其运算流程示意图见下图所示：
在这里插入图片描述
用户交互信息的合成
对于用户的交互信息这里选用的是涂鸦的形式，是首先抽取目标区域，之后提取这个区域的骨架作为用户的交互信息，之后按照训练的round进行单独处理：

1）first round：使用前景区域作为交互信息的采样区域；
2）other round：使用与GT mask相比较得到的错误正负区域做为采样区域；

3. 实验结果

DAVIS 2018：
在这里插入图片描述
消融实验：

猜你喜欢

智慧医疗陷困境？究竟是为何！
SQL Server Alwayson概念总结
浅析Java自定义注解aop切面的使用介绍
160. Intersection of Two Linked Lists
生产者/消费者模式的理解及实现
swift派发机制的核心是确定一个函数能否进入动态派发列表
socket编程详解（二）——客户端
使用JCIFS获取远程共享文件
外设驱动库开发笔记49：BY25Qxx存储器驱动
【javascript】Javascript中"||"的妙用
20221215今天的世界发生了什么
全国省市区县SQL地图包
查看自己某个conda环境的Python版本的方法
ios多线程操作（五）—— GCD串行队列与并发队列
Charles 注册码
2015年Facebook广告变现规模达10亿美金
解决MySQL count统计数目错误的问题

相关主题

写论文的笔记
关于论文
论文阅读笔记
DL论文
笔记笔记笔记
论文笔记
笔记笔记
论文即思路
U-Net论文笔记

zl程序教程