zl程序教程

您现在的位置是:首页 >  其他

当前栏目

《Robust Multiple Object Mask Propagation with Efficient Object Tracking》论文笔记

论文笔记 with object multiple Mask Efficient Tracking
2023-09-11 14:22:29 时间

参考代码:暂无

1. 概述

导读:交互的视频目标分割拥有两个比较核心的操作:交互式的图像目标分割(将用户给的交互信息【方框、点击等,与文中tracker对应】与RGB图像、前一帧分割结果【可选】送入CNN模型)与视频目标mask的传导(与DeepLab v3+分割网络对应)。这篇文章将这两个步骤看成是相互独立的部分,主要的工作重点在后一个步骤中,文章引入目标跟踪为目标提供一个RoI区域,这样可以极大提升mask传导的稳定性,之后所有目标区域mask传导的结果会进行整合以解决分割过程中的重叠问题。这篇文章的方法不需要任何预先计算好的特征,其在Davis 2017验证集上取得了AUC 0.766与J&F@60s 0.78的性能。

2. 方法设计

在这篇文章的分割方法中存在两个不同的交互式图像目标分割模块:初始帧的目标分割与后序帧的交互分割。这两个模块都是基于DeepLab v3+的,在前一个模块中将用户输入的交互信息作为引导图,因而输入的数据就是:RGB图+引导图;后一个模块的输入还额外增加了前一帧的分割结果。这篇文章主要着力于视频目标的分割,其结构见下图所示:
在这里插入图片描述
这篇文章中mask传导步骤可以划分为3步:单目标跟踪、但目标mask传导(分割)、多目标分割。

2.1 单目标跟踪

文章中选用的是ATOM的跟踪器,它为每个目标提供当前帧中的目标区域,从而在此基础上计算ROI。
ATOM跟踪网络由两个子任务组成:目标预估与分类,目标预估是离线进行训练的,他会预估检测框与目标的Jaccard Index(IoU overlap)。目标分类是在线学习的,去预测对于类别的置信度。这里使用的Backbone是ResNet-18,运算速度是30FPS。

2.2 单目标mask分割

这里对于mask的提取是通过backbone为xception_65的DeepLab v3+实现的,这一步就是在上一步tracking的基础上使用其得到的边界框结果,经过扩大之后得到ROI再将RGB对应的区域与前一帧对应区域抠出,组合成为4通道的分割输入数据,之后resize到 513 ∗ 513 513*513 513513进行分割。因而跟踪给分割带来鲁棒性的同时,分割也是很依赖于tracking性能的。

2.3 多目标分割

在前面的内容里面已经将每个单独的目标分割出来了,那么这一步就是将这些单独的分割目标进行整合,解决目标重叠的问题。
对于前面两步网络产生的分割结果为 P i P_i Pi(为第 i i i个目标的前景与背景类的概率),则这里就是对于这个概率矩阵进行归一化得到 P i ′ ( x , k ) , k ∈ { 0 , 1 } P_i^{'}(x,k),k\in\{0,1\} Pi(x,k),k{0,1}
P i ′ ( x , k ) = e p i ( x , k ) e p i ( x , 0 ) P_i^{'}(x,k)=\frac{e^{p_i^{(x,k)}}}{e^{p_i^{(x,0)}}} Pi(x,k)=epi(x,0)epi(x,k)
经过上式背景类的都被归一化为1,之后就是将归一化之后的概率矩阵进行整合了,下面是其运算公式:
在这里插入图片描述
其中, N N N是目标的数目,经过上面的计算之后,对于最后的结果就是在对应位置上对不同类别取argmax了。

2.4 数据增广

文章为了提升分割网络的鲁棒性还提出了两种数据增广的方式:

  • 1)使用affine变换得到边形之后的mask;
  • 2)为mask添加随机的噪声;

3. 实验结果

在这里插入图片描述