您现在的位置是：首页 > 后端

当前栏目

[调研] 通用实例分割方法[通俗易懂]

实例方法通俗易懂通用分割调研

2023-06-13 09:11:01 时间

大家好，又见面了，我是你们的朋友全栈君

目前的实例分割方法可分为3类：

top-down，也叫做 detect-then-segment，顾名思义，先检测后分割，如FCIS, Mask-RCNN, PANet, Mask Scoring R-CNN；
bottom-up，也叫Embedding-cluster，将每个实例看成一个类别；然后按照聚类的思路，最大类间距，最小类内距，对每个像素做embedding，最后做grouping分出不同的instance。Grouping的方法：learned associative embedding，A discriminative loss function，SGN，SSAP. 一般bottom-up效果差于top-down；
direct的方法。不同与上述两类方法，直接得到实例分割结果，如SOLO。

Deep Snake for Real-Time Instance Segmentation [2001]

物体轮廓用循环卷积来学习特征确定offset

文章提出two-stage、real-time的instance segmentation方法：1、得到初始的目标轮廓；2、轮廓迭代变形，以得到最终精准的目标边界；

不同于CornerNet、ExtremeNet等方法直接回归目标边界上的点，受到传统snake算法的启发，Deep Snake 通过迭代变形一个初始轮廓来得到最终的目标边界；文章使用循环卷积来学习目标轮廓的结构特征；对512×512大小的图片在1080Ti上达到32.3 fps

先得到检测框，再得到diamond框，学习offset得到四个极点，得到octagon 轮廓；输入到 deep snake，学习边缘；

PointRend: Image Segmentation as Rendering [1912]

方法：对输出的coarse mask 和 fine-grained 特征选部分点进行学习，用提出的subdivision mask rendering算法迭代，得到不确定边界区域的mask

Render方法：subdivision 、adaptive sampling、 ray-tracing Subdivision: 只在（与周围区域十分不同的）区域计算；其他区域直接插值；如何选点：将coarse mask 上采样X2；选择p接近0.5的N个点；用MLP得到这N个点预测值；一直迭代，直到到达某一分辨率；

但训练阶段，不采用迭代的方式训练；而是使用随机采样

SOLO: Segmenting Objects by Locations [1912]

现有方法分为两类： top-down，也叫做 detect-then-segment，顾名思义，先检测后分割，如FCIS, Mask-RCNN, PANet, Mask Scoring R-CNN、TensorMask bottom-up，也叫Embedding-cluster，将每个实例看成一个类别；然后按照聚类的思路，最大类间距，最小类内距，对每个像素做embedding，最后做grouping分出不同的instance。Grouping的方法：learned associative embedding，A discriminative loss function，SGN，SSAP. 一般bottom-up效果差于top-down。

但这些方法是two-step而且indirect。我们思考12，不同的instance的真正区别是什么，我们的答案是 location 和 object size。

Location：将图像分成S*S个cell，就形成了S^2个location类别；网络输出的一个channel就代表了一个location类别；相应的这个channel map就输出属于这个location类别的instance。将每个像素分类到不同的location class，等价于对每个像素的中心位置做回归；相比起回归；用分类来做对位置预测的任务，更加直观，且用固定的channel能预测不同数量的instance。且不需要grouping或者embedding的后处理。

Size：FPN做不同大小的类别，不同的level预测不同的大小

传统卷积是spatial invariant，但这里需要position sensitive.受CoordConv启发，直接把归一化坐标信息与特征拼接（简单易行）。最后接NMS后输出实例分割结果。 FPN-backbone + prediction head –{ semantic category ———————————————- { instance mask

为验证方法有效性，选择了不同backbone+head+loss来进行试验。标签赋值：Center sampling (在FCOS2019, Beyond anchor-based中都有使用) 中心区域定义：(cx, cy, εw, εh) ，ε=0.2，平均有3个positive sample

损失函数：category的focal 分类损失+ mask的分割损失（DICE）在MS-COCO上与其他方法对比结果：

用FPN比直接设置grid num效果好很多✅

FPN各level的grid num

COORDCONV作用：

Decoupled方法

GPU显存更少

速度： SOLO – RESNET-50 Speed 12FPS ON V100

FCOS: Fully Convolutional One-Stage Object Detection [1904]

Method：不预测检测框；而是直接预测点距离四个边的距离

Centerness：一个branch抑制离中心点远的低质量proposal；训练时，计算；(l,t,r,b)为该点距离四个边的距离；不同level使用同一head对性能不太好，添加一个可学习的参数s用于回归，使得性能略微上升

CE作为loss；测试时，nms抑制低的得分。同一点对应不同目标，可以用FPN解决；不同level预测不同scale

TensorMask: A Foundation for Dense Object Segmentation [1903]

滑动窗目标检测；dense sliding-window instance segmentation network 利用滑窗来寻找物体，是CV中古老又传统的方法。 Insight： Faster-rcnn、mask-rcnn都是用滑窗检测出候选框，再用refinement net来进一步挑选； SSD和RetinaNet舍弃了refinement，直接用滑窗得到检测结果。然而目前这类方法没有拓展到instance 分割上。本文即填补这个gap 方法：定义 nature representation 与 aligned representation

方法总结：精度比不过mask rcnn，而且还慢3倍；

Hybrid Task Cascade for Instance Segmentation [1901]

Insight:充分利用detection与segmentation的相互(reciprocal)关系设计级联方式

现有方法粗略分为两类： detection-based：detector先产生bbox或region proposal，再在区域内预测mask； segmentation-based：

method：交织进行bbox 回归与mask预测，而非并行 Mask brainch，上阶段信息直接输入到当前；加入了额外的语义分割branch，并融入到bbox与mask branch中这些改进改善了stage以及task的信息流

速度、性能比较：

CASCADE R-CNN: iou=0.5 ，FP多，iou升高，性能下降；原因：1、由于指数消失的正样本导致过拟合；2、训练与测试的mismatch（即在train上取得最佳的IOU阈值对inference时产生的proposal并不能很好地进行回归）方法：级连不同iou的detector；iou逐渐升高；

Path Aggregation Network for Instance Segmentation [1803]

PANET CVPR2018 关键词：information flow 1st place in the COCO 2017 Challenge Instance Segmentation task Method：bottom-up path + adaptive feature pooling + mask branch中添加了 fc；

Mask R-CNN [1703]

FPN + FPN + ROI Align + 3 branch （class, mask , box ） FCIS缺点：重叠instance、虚假边缘

实验：cityscape + coco

Fully Convolutional Instance-aware Semantic Segmentation [1611]

FCIS. : 首个端到端的实例分割网路；CVPR2017 spotlight 检测与分割同时进行. 用RPN代替sliding window。此前的技术分为三步：1、FCN提取特征；2、将每个ROI pooling成相同尺寸的特征图；3、全连接层输出ROI mask。注意：translation-variant在fc上引入。缺点如下：1、ROIpooling损失空间细节；2、使用fc层参数量过多；3、最后一步每个ROI之间的计算不共享； Method： position-sensitive score map joint mask prediction and classification RPN得到的检测框，直接在score map上裁剪，特征图一半(inside)做softmax得到实例分割图；特征图另一半(outside)max + avg Pooling + softmax，判断是否为instance inside score：像素在目标内 segment+ outside score:像素在目标外 segment-

总共有3个loss， C+1类的检测loss，分割loss以及bbox的回归loss 实验：pascal+coco

Deep Watershed Transform for Instance Segmentation [1611]

需要好的语义分割图像（由PSPNet得到）；优点：适合学习相互连接的物体缺点：遮挡、重叠；学不到实例类别；性能比mask-rcnn差很多方法：网络学习分水岭变换；得到能量图，再根据能量图，直接得到每个实例：DN net （梯度图，单位向量，得到2维）+ WT net （能量图）

InstanceCut: from Edges to Instances with MultiCut [1611]

方法：输出语义分割图+所有instance的边界— 之后用MultiCut来分割最终的instance； instance-aware； ituition ： Semantic seg 的中间特征可以用来学习edge 数据：cityscape，8个类别；2975 images for training, 500 for validation and 1525 for testing

Instance-sensitive Fully Convolutional Networks [1603]

ECCV2016 优点：普通卷积有平移不变形，同一位置，响应总是一样，这阻碍了实例分割；为此文章引入instance-sensitive score map，同一个像素，因为相对位置发生了变化，选择了不同的score map的值，因此有了translation-variant。缺点：1、非端到端的实例分割；因为无法判断instance分割的语义类别；2、固定的224大小滑窗+ image pyramid scanning，十分耗费时间；细节：测试训练都使用多尺度

基于像素的相对位置来进行分类，从而产生一些instance-sensitive的score map，后续通过一个简单的assembling module来得到最终的instance分割结果

具体实现上，特征提取使用VGG16网络，输出特征(H/8,W/8)；第一个分支，经过两个卷积，先输出K^2个score map (K=5)，用mXm的滑动窗用assemble 得到instance，再从得到的instance里面随机抽样256个，这些instance 和instance的分割gt计算loss；

第二个分支，预测分支一得到256个instance是真正的instance 的概率，计算loss；

测试阶段：对分支一上sliding window得到的instance score map，先二值化，再用分支二的概率以及instance的box的iou来做NMS，最后选择top-N作为最终结果。

预处理上，scale jittering在多篇文章中大量运用；

SGN: Sequential Grouping Networks for Instance Segmentation [16XX]

ICCV17 ; 内容过于繁琐，且无开源代码 Insight:点成线；线成面 Method：一串子网络逐渐完成任务；子网络1:水平以及垂直预测breakpoints；产生线的分割子网络2:将线分割连成联通的区域；将对pixel的分类降维成对线的分类；RNN网络 LineNet（很小）;输入为9个通道子网络3:连通区域形成最后instance； MergerNet（很小）

1、每个像素额外标注成background，interior，starting point，termination point 2、水平、垂直两个方向成线

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/172426.html原文链接：https://javaforall.cn

猜你喜欢

磁盘高可用解决方案(DBA).md
Oracle中如何正确结束操作（oracle中结束怎么用）
Oracle与Vue官网联合宣传前瞻技术，轻松开发（oracle vue官网）
Oracle强大之处：赋值语句详解（oracle赋值语句）
mongodb 本地快速复制collection详解大数据
Oracle中大展身手子串函数的应用（oracle中子串函数）
Linux服务器编程实例：25个实用案例！（linux服务器编程实例）
[转]恕我直言，在座的各位根本不会写 Java！详解编程语言
VM系列振弦采集模块频率计算与质量评定
元宇宙新形态、新趋势与新机遇
使用java实现http多线程断点下载文件(一)
二阶思维
MySQL Status Handler_delete 数据库状态作用意思及如何正确
全面解析机器视觉系统及其优势
XYLibrary笔记九：XNewWork使用笔记
Java Map.isEmpty()方法：判断Map集合对象是否包含内容
pycharm修改镜像源_pycharm更改字体大小

zl程序教程