您现在的位置是：首页 > 其他

当前栏目

《RVOS：End-to-End Recurrent Network for Video Object Segmentation》论文笔记

论文笔记 for to object Network end Video

2023-09-11 14:22:29 时间

参考代码：RVOS

1. 概述

导读：这篇文章提出一个可以实现多目标视频分割的方法RVOS（Recurrent network for multiple object Video Object Segmentation），这篇文章主要有两点比较有意思的点：1）可以实现没有第一帧标注与finetune过程实现视频分割（也可以使用标注的第一帧结果来进行初始化RNN初始状态）；2）有效利用了帧内的空间（spatial）连续相关性与时序（temporal）上的连续性（使用ConvLSTM与类别相关性），去编码对应的分割结果；文章的方法在DAVIS-2017等数据集上表现出了较为不错的成绩，并且速度也是比较快的，在P100 GPU上速度无44ms/F。

在一些VOS的方法中将不同视频帧单独处理，并没有使用视频帧之间的相关性提升性能，一些会使用诸如前一帧预测结果或是预估光流信息来提供一些时序上的信息。而在这篇文章里面是借鉴了RNN（ConvLSTM）的时序特性去编解码视频分割信息，因而就构建了一个多目标的端到端的分割网络（网络RNN部分的计算量会随着目标数目的增加线性增加）。文章提出的方法其总体流程结构见下图1所示：
在这里插入图片描述

2. 方法设计

2.1 网络结构

文章提出的视频分割网络有点类似于UNet的分割模型，是一个编解码结构的网络，根据输入配置的不同划分为zero-shot和one-shot VOS，网络的结构在某一帧单步下的计算结构如图2所示：
在这里插入图片描述

2.2 编码器部分

文章使用了ResNet-101作为其编码器部分，在编码器中取出每个阶段的特征 $f_t=\{f_{t,1},f_{t,2},\dots,f_{t,k}\}$ ，然后根据是否为oneshot添加是否在输入RGB通道的数据上添加额外的分割结果输入。

2.3 解码器部分

文章中使用ConvLSTM去充当解码器，整合 $t$ 时刻帧编码器部分的输出 $f_t=\{f_{t,1},f_{t,2},\dots,f_{t,k}\}$ ，得到关于当前帧中不同目标的分割结果 $\{S_{t,1},S_{t,2},\dots,S_{t,N}\}$ ， $S_{t,i}$ 代表的是当前帧分割出来的第 $i$ 个物体，这部分可以理解为空间上的相互关联性，而时序上的关联性是在同类目标在不同帧之间处理得到的，可以参考图3中的右图。在上面说到目标的类别数 $N$ ，它是一个固定的数，要是一个物体在视频的某一帧中消失了，那么其在这一帧与后序帧中也将消失。这里对于分割目标的顺序是没有任何强制性要求的，使用的损失函数是软性IoU损失（soft Intersection over Union score）。
在这里插入图片描述
在图3右图的结构中将空域与时序上都进行关联，使用 $h_{t,i,k}$ 代表帧 $t$ 在第 $k$ 个ConvLSTM输出第 $i$ 个目标的结果。这里先需要先明确几个变量：

1） $f_t$ 是编码器在帧 $t$ 的特征输出
2）当前帧前一个物体ConvLSTM层的输出 $h_{t,i-1,k}$
3）前一帧的相同物体ConvLSTM输出 $h_{t-1,i,k}$
4）前一帧对于目标 $i$ 的最后输出 $D_{t-1,i}$

因而ConvLSTM的运算过程可以描述为：
$h_{input}=[B_2(h_{t,i,k-1})|f_{t,k}^{'}|S_{t-1,i}]$
$h_{state}=[h_{t,i-1,k}|h_{t-1,i,k}]$
$h_{t,i,k}=ConvLSTM_k(h_{input},h_{state})$
其中， $B_2$ 代表双线性才上采样， $f_{t,k}^{'}$ 是 $f_{t,k}$ 经过卷积层维度降维之后的特征图。

在使用编码器中的特征进行优化的时候，由于初始没有上一个阶段的特征输入（没有了上采样环节），则对应的 $h_{input}$ 输入为：
$h_{input}=[f_{t,0}^{'}|S_{t-1,i}]$

在上面的式子中由于会使用到 $i - 1$ 的目标解雇，则第一个目标的 $h_{state}$ 被定义为：
$h_{input}=[Z|h_{t-1,i,k}]$
其中， $Z$ 是零矩阵代表前一个空间中没有目标。

3. 实验结果

是否使用空间与时序信息对性能的影响：
在这里插入图片描述
one-shot的分割性能：

猜你喜欢

本月补丁星期二活动已修复Google发现的Windows 10提权漏洞
STM32物联网项目-窗口看门狗WWDG
CMake - 概览
HTTP服务端JSON服务端
（5.11）mysql复制错误
报错：System.Data.Entity.Infrastructure.DbUpdateException 更新条目时出错
POV写作手法
《惢客创业日记》2021.07.09-14（周五）惢客未来会有哪些风险？
tr命令
大数据驱动工业智慧化“二次革命”
Radix tree--reference
Nginx 事件驱动模型（秒懂+史上最全）
C# 解决“请求被中止: 未能创建 SSL/TLS 安全通道”的问题
Swagger 打开时自动折叠
物联网时代三剑客，蓝牙5.0/WiFi HaLow/ZigBee将如何发力？
逆向工程第001篇：解锁FIFA07传奇模式
《软件测试技术实战：设计、工具及管理》—第1章 1.4节本章总结
Arduino学习笔记27
使用Snap.svg类库实现的抖动式的幻灯播放效果
Allegro172版本多人协同在线设计操作指导
SQL Server 2019安装和卸载

相关主题

写论文的笔记
SCI论文
论文阅读笔记
论文
笔记笔记笔记
论文笔记
论文3
笔记笔记
论文阅读一
U-Net论文笔记

zl程序教程