您现在的位置是：首页 > 其他

当前栏目

《Robust Multiple Object Mask Propagation with Efficient Object Tracking》论文笔记

论文笔记 with object multiple Mask Efficient Tracking

2023-09-11 14:22:29 时间

参考代码：暂无

1. 概述

导读：交互的视频目标分割拥有两个比较核心的操作：交互式的图像目标分割（将用户给的交互信息【方框、点击等，与文中tracker对应】与RGB图像、前一帧分割结果【可选】送入CNN模型）与视频目标mask的传导（与DeepLab v3+分割网络对应）。这篇文章将这两个步骤看成是相互独立的部分，主要的工作重点在后一个步骤中，文章引入目标跟踪为目标提供一个RoI区域，这样可以极大提升mask传导的稳定性，之后所有目标区域mask传导的结果会进行整合以解决分割过程中的重叠问题。这篇文章的方法不需要任何预先计算好的特征，其在Davis 2017验证集上取得了AUC 0.766与J&F@60s 0.78的性能。

2. 方法设计

在这篇文章的分割方法中存在两个不同的交互式图像目标分割模块：初始帧的目标分割与后序帧的交互分割。这两个模块都是基于DeepLab v3+的，在前一个模块中将用户输入的交互信息作为引导图，因而输入的数据就是：RGB图+引导图；后一个模块的输入还额外增加了前一帧的分割结果。这篇文章主要着力于视频目标的分割，其结构见下图所示：
在这里插入图片描述
这篇文章中mask传导步骤可以划分为3步：单目标跟踪、但目标mask传导（分割）、多目标分割。

2.1 单目标跟踪

文章中选用的是ATOM的跟踪器，它为每个目标提供当前帧中的目标区域，从而在此基础上计算ROI。
ATOM跟踪网络由两个子任务组成：目标预估与分类，目标预估是离线进行训练的，他会预估检测框与目标的Jaccard Index（IoU overlap）。目标分类是在线学习的，去预测对于类别的置信度。这里使用的Backbone是ResNet-18，运算速度是30FPS。

2.2 单目标mask分割

这里对于mask的提取是通过backbone为xception_65的DeepLab v3+实现的，这一步就是在上一步tracking的基础上使用其得到的边界框结果，经过扩大之后得到ROI再将RGB对应的区域与前一帧对应区域抠出，组合成为4通道的分割输入数据，之后resize到 $513 * 513$ 进行分割。因而跟踪给分割带来鲁棒性的同时，分割也是很依赖于tracking性能的。

2.3 多目标分割

在前面的内容里面已经将每个单独的目标分割出来了，那么这一步就是将这些单独的分割目标进行整合，解决目标重叠的问题。
对于前面两步网络产生的分割结果为 $P_i$ （为第 $i$ 个目标的前景与背景类的概率），则这里就是对于这个概率矩阵进行归一化得到 $P_i^{'}(x,k),k\in\{0,1\}$ ：
$P_i^{'}(x,k)=\frac{e^{p_i^{(x,k)}}}{e^{p_i^{(x,0)}}}$
经过上式背景类的都被归一化为1，之后就是将归一化之后的概率矩阵进行整合了，下面是其运算公式：
在这里插入图片描述
其中， $N$ 是目标的数目，经过上面的计算之后，对于最后的结果就是在对应位置上对不同类别取argmax了。

2.4 数据增广

文章为了提升分割网络的鲁棒性还提出了两种数据增广的方式：

1）使用affine变换得到边形之后的mask；
2）为mask添加随机的噪声；

3. 实验结果

在这里插入图片描述

猜你喜欢

自己是个菜鸟自己查找的简单的适合初学的Makefile
Correlation rule tuning
There is no getter for property named 'purchaseApplyId' in 'class java.lang.Long'
locate命令
Android 文件保存
【转】JAVA错误：The public type *** must be defined in its own file***
Mui-js获取复选框的值，利用数组
关于芯片文档
30秒攻破任意密码保护的PC：深入了解5美元黑客神器PoisonTap
Android中View绘制流程以及invalidate()等相关方法分析
第 17 章高可用设计之思路及方案
vue-countdown组件
腾讯云 centos 7.6 rpm 安装mysql8.0
oracle将指定的表中所有字段变为大写
CSDN日报20170320——《Java 程序员的面试经历和题库》
循序渐进Java Socket网络编程（多客户端、信息共享、文件传输）
c#中的多态学习总结
利用display属性写出表格的布局样式
C# 跨域请求带cookie
烟雾识别的matlab仿真

相关主题

写论文的笔记
关于论文
论文阅读笔记
论文
论文速递
笔记笔记笔记
论文笔记
笔记笔记
论文即思路
U-Net论文笔记

zl程序教程