《Fast User-Guided Video Object Segmentation by Interaction-and-Propagation Networks》论文笔记
参考代码:暂无
1. 概述
导读:这篇文章提出了一种交互式的视频目标分割算法,方法由两个网络组建部分构成:交互式子网络(interaction)和分割子网络(propagation)。交互子网络用于将用户提供的交互信息(涂鸦、bounding box等)转化为前景目标;分割子网络将分割的目标mask在原帧与邻近帧之间传递,实现目标分割。而这两个子网络是组合进行训练的,防止了单独进行训练带来的不稳定情况。此外,在网络改进的基础上还提出了一种multi-round的训练方法,就是在多次训练round中添加交互信息,指导达到想要的效果,也是为实际中多次交互分割进行模拟,期待达到更好的性能。这篇文章的方法在DAVIS 2018数据集上速度与精度方面均超越了先前的分割方法。
文章算法的运行过程(往复地)见下图1所示:
2. 方法设计
这篇文章的算法是基于ResNet-50的编解码结构网络,输入部分使用了RoI Align操作使得网络可以更加关注有效区域,给出的网络结构见下图(a)(b)图所示:
对于其中的decoder模块其结构为:
在实际的运算过程中,训练的时序会前后颠倒,也就是进行往复训练,其中会使用用户的交互信息进行修正。这也是文章指出的使用可信赖的视觉信息来生成效果更好的结果,而这一部分可信赖的信息就是来自于交互子网络部分,文章指出其是通过Feature Aggregation Module进行融合的,从而将交互信息引入到目标分割网络中去。
对于多类分割的情况,文章会首先预测出每个类的分割结果,之后再将这些结果经过soft aggregation融合起来得到最后结果。
2.1 网络细节
交互子网络
交互子网络的输入有6个channel,除了输入的RGB RoI之外还有另外3个通道:前一round的mask输出概率图(其中的值介于0到1之间)、2份代表正负样本区域的二值标注图,从而得到对应的输入数据
X
i
∈
R
6
∗
H
∗
w
X_i\in R^{6*H*w}
Xi∈R6∗H∗w,其中对于第一round(由于没有对应的mask),因而这里的输入概率图中的所有像素全部被置位0.5。最后,得到的输出结果为
Y
i
^
∈
R
H
∗
W
\hat{Y_i}\in R^{H*W}
Yi^∈RH∗W。
分割子网络
这一部分的分割子网络与交互子网络输入类似,不错这里由6个channel变为了5个channel,除了RGBchannel多出来的为:前一帧的分割mask与前一轮的分割mask,则输入为
X
p
∈
R
5
∗
H
∗
W
X_p\in R^{5*H*W}
Xp∈R5∗H∗W。
Feature Aggregation Module
为了有效利用用户交互的信息,文章针对应的设计了这个模块,它是将交互网络编码器的输出当做是clue或者成为reference,其结构见下图所示:
在上面的结构中分割子网路与交互子网络的特征经过池化、全连接等操作之后可到一个在每个channel上2维的特征,之后经过softmax保证2维度上的值相加为1,之后使用这两维度的值作为权值将之前输入的两个特征做channel-wise的加权和,之后再送入到decoder中去。
Region of Interest
在分割算法中对于小目标与过大的目标处理起来是有难度的,但是知道图像中的RoI的位置这样就好办很多了。在这篇文章中使用了3个clue:用户的交互信息、前一round的mask输出、前一帧的mask输出,从而就可以得到一个box的RoI,之后将其经过双线性插值得到
256
∗
256
256*256
256∗256的图像送入encoder中。反向映射也参考这部分工作。
2.2 网络训练与数据合成
训练策略
为了更好适应用户在测试过程中多次进行交互,并且对这些交互进行反馈,文章在训练的过程中人为地去模拟了这个过程提出了multi-round的训练策略,在这个策略中将分割与交互子网络联合训练,其运算流程示意图见下图所示:
用户交互信息的合成
对于用户的交互信息这里选用的是涂鸦的形式,是首先抽取目标区域,之后提取这个区域的骨架作为用户的交互信息,之后按照训练的round进行单独处理:
- 1)first round:使用前景区域作为交互信息的采样区域;
- 2)other round:使用与GT mask相比较得到的错误正负区域做为采样区域;
3. 实验结果
DAVIS 2018:
消融实验:
相关文章
- 《转》推荐系统经典论文文献及业界应用
- 论文笔记(7):Constrained Convolutional Neural Networks for Weakly Supervised Segmentation
- 论文笔记(4):Fully Convolutional Networks for Semantic Segmentation
- 论文笔记(2):Deep Crisp Boundaries: From Boundaries to Higher-level Tasks
- 机器学习笔记 - EfficientNet论文解读
- 谷歌Borg论文阅读笔记(二)——任务混部的解决
- Paper之KE之CIKM&IEEE-TKDE:Knowledge Engineering知识工程领域高水平论文翻译及其解读
- DL之ShuffleNetV2:ShuffleNetV2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
- WPS:WPS的论文使用技巧之成功解决如何在尾注设置的参考文献后添加致谢、附录等章节(图文教程)
- 【论文笔记】一种有效攻击BERT等模型的方法
- 论文解读(PAWS)《Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples》
- 论文解读(ASAP)《ASAP: Adaptive Structure Aware Pooling for Learning Hierarchical Graph Representations》
- 论文解读(GraRep)《GraRep: Learning Graph Representations with Global Structural Information》
- NLP模型笔记2022-16:词向量、中文词向量的训练与中文词向量论文综述
- Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现
- NASNet学习笔记—— 核心一:延续NAS论文的核心机制使得能够自动产生网络结构; 核心二:采用resnet和Inception重复使用block结构思想; 核心三:利用迁移学习将生成的网络迁移到大数据集上提出一个new search space。
- 论文投稿指南——中文核心期刊推荐(电子、通信技术2)
- 论文投稿指南——收藏|如何选择SCI期刊(含选刊必备神器)
- 【AIGC】论文阅读神器 SciSpace 注册与测试
- 论文笔记系列:轻量级网络(一)-- RepVGG
- 论文笔记系列:经典主干网络(二)-- DenseNet
- 【数学建模】16 数学建模竞赛论文写作
- 英文论文写作语法避坑指南
- 学习经验分享【26】论文写作画图方法(持续更新)
- 论文阅读4:ShiDianNao