zl程序教程

您现在的位置是:首页 >  其他

当前栏目

[CVPR | 论文简读] 基于信息分流的多尺度自注意力机制

论文 基于 信息 机制 简读 CVPR 注意力 尺度
2023-06-13 09:16:24 时间

简读分享 | 汪逢生 编辑 | 乔剑博

论文题目

Shunted Self-Attention via Multi-Scale Token Aggregation

论文摘要

最近的 Vision Transformer (ViT) 模型在各种计算机视觉任务中取得了不错的结果,这要归功于它通过自我注意对图像块或标记的长期依赖关系进行建模的能力。然而这些模型通常指定每一层内每个标记特征的相似感受野。这种约束不可避免地限制了每个自注意力层捕获多尺度特征的能力,从而导致在处理具有不同尺度的多个对象的图像时性能下降。为了解决这个问题,作者提出了一种新颖的通用策略,称为分流自我注意 (SSA),它允许 ViT 在每个注意层的混合尺度上对注意进行建模。SSA 的关键思想是将异构感受野大小注入到token中:在计算自注意力矩阵之前,它选择性地合并token以表示更大的对象特征,同时保留某些token以保留细粒度的特征。这种新颖的合并方案使self-attention能够学习不同大小的对象之间的关系,同时减少token数量和计算成本。各种任务的广泛实验证明了 SSA 的优越性。具体来说,基于 SSA 的 Transformer 实现了 84.0% 的 Top-1 准确率,并且在 ImageNet 上以只有一半的模型大小和计算成本超过了最先进的Focal Transformer,并且在 COCO 上超过了 Focal Transformer 1.3 mAP在相似的参数和计算成本下,ADE20K 上为 2.9 mIOU。

论文链接

https://arxiv.org/abs/2111.15193