您现在的位置是：首页 > 其他

当前栏目

单阶段实例分割SOLO-v1& SOLO-v2论文笔记

amp 实例论文笔记分割阶段 V2 v1

2023-09-11 14:22:29 时间

参考代码：

AdelaiDet
SOLO，本文所引用代码源自于此

这里提到的v1和v2版本分别对应的文章名称：

SOLO: Segmenting Objects by Locations
SOLOv2: Dynamic and Fast Instance Segmentation

1. 概述

导读：SOLO系列的文章解决的是单阶段的实例分割任务，相比之前的检测-分割（top-down）的方法在操作流程上简化不少，同时取得的效果也是不错的。在单阶段的实例分割任务中由于缺少检测带来的位置确定性，因而需要对实例分割的中的像素位置进行显式建模。在这篇文章中通过将输入的特征图划分为 $S * S$ 的网络（在实际数据分布下物体与物体中心的距离也是足够的，能够满足网格划分从而区分开不同的物体，物体不密集的情况-_-||），也就是通过网格划分的方式确定位置与实例mask的对应关系，并在对应的网格上完成目标的分类和网格对应实例mask的预测任务。

将文章的实例分割算法与Mask RCNN方法进行比较，见下图所示：
在这里插入图片描述
SOLO的方法直接建立位置与mask的关系，从而完成实例的分割。

2. SOLO-v1

2.1 网络结构

文章提出的网络结构见下图所示：
在这里插入图片描述
文章的方法首先使用FPN网络进行特征提取，之后预测头通过共享权重的策略实现实例mask的分割，这里采用了FPN网络的 $P 2 - P 6$ 的特征图（多尺度预测下的性能最佳），其对应的网络尺寸为 $S\in[40,36,24,16,12]$ ，对应网格大小和数量对性能的影响见下表：
在这里插入图片描述

2.2 预测头

这里使用到的预测头其结构见下图所示：
在这里插入图片描述
分类分支：
若当前特征图需要的网格数量为 $S * S$ ，那么这里会首先将输入的特征进行resize操作（也就是对应上图中的Align操作），从而得到空间分辨率为 $S * S$ 的特征图，之后就是对这些网格进行类别回归。对于这些特征图的分类标签是通过判断GT box的中心区域落在是否落在对应网格内部确定的，落在了对应的网格内部那么对应的网络回归的目标就是GT box的类别。其中这里对GT box中心区域的确定使用的是 $(c_x,c_y,\epsilon h,\epsilon w),\epsilon=0.2$ 。

mask分支：
由于CNN网络（conv+pool）存在一定的平移不变性，这就会给mask的定位带来一定的影响，那么解决的办法便是显式为mask分支添加空间坐标先验，也就是X和Y两个方向的归一化坐标：

# mmdet/models/anchor_heads/solo_head.py#L148
# concat coord
x_range = torch.linspace(-1, 1, ins_feat.shape[-1], device=ins_feat.device)
y_range = torch.linspace(-1, 1, ins_feat.shape[-2], device=ins_feat.device)
y, x = torch.meshgrid(y_range, x_range)
y = y.expand([ins_feat.shape[0], 1, -1, -1])
x = x.expand([ins_feat.shape[0], 1, -1, -1])
coord_feat = torch.cat([x, y], 1)

之后要做的便是将 $S * S$ 的网格与对应的mask对应起来，这里采用的是网格中的块儿和mask在预测的channel上一一对应的形式，也就是一个网格中的块儿会根据分类的类别会存在一个与之对应的mask。这样下来就将分类和mask组合起来完成了实例分割任务。

这里的实现代码可以参考：

# mmdet/models/anchor_heads/solo_head.py

mask头解耦的形式：
在上述的过程中会存在mask的预测结果channel和网格呈现 $S * S$ 的倍数关系，特别是在一些FPN浅层的特征图上，其channel是很大的。对此文章使用X和Y方向解耦（这里使用到的坐标先验会分别concat到对应的分支）的形式减少channel的数量，则上面的mask头就可以改为下面的样子：
在这里插入图片描述
则原本在网格 $S * S$ 位置为 $(i, j)$ 的mask其表达被描述为了：
$M_{i,j}=sigmoid(X_i)\otimes sigmoid(Y_j)$
也就是对应了上图右边的形式。

对于训练的损失函数是分类损失加上mask分割损失的形式：
$L=L_{cate}+\lambda(L_{mask}^{bce}+L_{mask}^{dice})$

2.3 消融实验

位置编码特征对性能的影响：
在这里插入图片描述
预测头中重叠卷积的数量（depth）对性能的影响：

2.4 实验结果

在这里插入图片描述

3. SOLO-v2

SOLO-v2是在v1版本的基础上进行改进而来的，其改进的出发点源自于下面3个理由：

1）v1版本中通过在channel中编码位置的形式实现实例分割，但是这样带来的开销是比较大的，这就导致了整体算法的运行效率不是很高；
2）v1版本中处理实例分割的mask分辨率比较小，这就导致了实例分割的效果比较差，在这篇文章中通过将FPN网络聚合的形式在高分辨（stride=4）下的实例分割；
3）v1中使用的基于pixel的NMS存在耗时的问题，对此开发了基于matrix的NMS算法，从而通过矩阵运算的形式在CUDA设备上加快了计算过程；

将SOLO-v2方法与其它的一些方法进行比较见下图所示：
在这里插入图片描述

3.1 网络结构

文章的网络结构见下图所示：
在这里插入图片描述
将该网络结构与之前的v1版本进行比较可以看到其中添加了动态的卷积kernel预测（也就是上图中 $S * S$ 网格上的点），其原理是通过矩阵相乘的形式得到对应的mask特征：
$M_{i,j}=G_{i,j}*F$
其中，卷积kernel的维度为： $G_{i,j}\in R^{1*1*D}$ ，对应的输入特征图的分辨率为： $F\in R^{H*W*D}$ 。那么接下来就是需要去确定动态的卷积的kernel $G$ 和所需要的输入特征图 $F$ 了。

动态的卷积的kernel：
该卷积核参数确定是通过卷积的形式实现的，其过程可以参考：

# mmdet/models/anchor_heads/solov2_head.py#L162
# kernel branch
kernel_feat = ins_kernel_feat
seg_num_grid = self.seg_num_grids[idx]
kernel_feat = F.interpolate(kernel_feat, size=seg_num_grid, mode='bilinear')

cate_feat = kernel_feat[:, :-2, :, :]

kernel_feat = kernel_feat.contiguous()
for i, kernel_layer in enumerate(self.kernel_convs):
    kernel_feat = kernel_layer(kernel_feat)
kernel_pred = self.solo_kernel(kernel_feat)

特征图F：
特征图的生成过程中参考之前的位置编码将位置信息先验通过channel上concat的形式考虑进去。

上述设计到的一些超参数其消融实验见下表：
在这里插入图片描述

这里的实现代码可以参考：

# mmdet/models/anchor_heads/solov2_head.py

3.2 matrix NMS

这里使用并行设备运算matrix快速的特性，对之前的pixel的计算过程进行改进，从而得到改进之后的NMS：

def matrix_nms(scores, masks, method=’gauss’, sigma=0.5): # scores: mask scores in descending order (N)
    # masks: binary masks (NxHxW)
    # method: ’linear’ or ’gauss’
    # sigma: std in gaussian method
    # reshape for computation: Nx(HW)
    masks = masks.reshape(N, HxW)
    # pre−compute the IoU matrix: NxN
    intersection = mm(masks, masks.T)
    areas = masks.sum(dim=1).expand(N, N)
    union = areas + areas.T − intersection
    ious = (intersection / union).triu(diagonal=1)
    # max IoU for each: NxN
    ious_cmax = ious.max(0)
    ious_cmax = ious_cmax.expand(N, N).T # Matrix NMS, Eqn.(4): NxN
    if method == ’gauss’: # gaussian
    decay = exp(−(ious^2 − ious_cmax^2) / sigma) else: # linear
    decay = (1 − ious) / (1 − ious_cmax)
    # decay factor: N
    decay = decay.min(dim=0) return scores ∗ decay

3.3 实验结果

在这里插入图片描述

猜你喜欢

CAD看图软件中怎么将CAD转为PDF格式？CAD转PDF
Word控件Spire.Doc 【页面背景】教程(2) ；C在 C#、VB.NET 中为 Word 添加页面边框
ios蓝牙开发（二）ios连接外设的代码实现
1
HTTP客户端之使用request方法向其他网站请求数据
［异能程序猿］第一章酒后事发（第一更）
猿类如何捕获少女心--难以琢磨的try-catch
中国5G研发试验喜迎“小学课本”
分布式系列教程（40） -Linux下安装Logstash
Facebook正测试对话式的评论新界面
《HTML5游戏编程核心技术与实战》——第1章　游戏和HTML5初探1.1 网页游戏和HTML5
yum报错https error 404 not found
在命令行下发送短信
sqlserver中获取最后一个字符所在的位置
高德纳：2015十大战略性IT趋势
TVS瞬态抑制二极管选型指南
整理的最全 python常见面试题（基本必考）

相关主题

shell &&
Linux 中的 &
&&与&
2013&2014
& 运算
MyBatis Q&A
js || &&
&amp与&
x & (x - 1)==0
JS_&&||
H.265 & H.264
++i && i++
&和&&

zl程序教程

当前栏目

单阶段实例分割SOLO-v1& SOLO-v2论文笔记

1. 概述

2. SOLO-v1

2.1 网络结构

2.2 预测头

2.3 消融实验

2.4 实验结果

3. SOLO-v2

3.1 网络结构

3.2 matrix NMS

3.3 实验结果

相关文章