您现在的位置是：首页 > 其他

当前栏目

[CVPR | 论文简读] 基于信息分流的多尺度自注意力机制

论文基于信息机制简读 CVPR 注意力尺度

2023-06-13 09:16:24 时间

简读分享 | 汪逢生编辑 | 乔剑博

论文题目

Shunted Self-Attention via Multi-Scale Token Aggregation

论文摘要

最近的 Vision Transformer (ViT) 模型在各种计算机视觉任务中取得了不错的结果，这要归功于它通过自我注意对图像块或标记的长期依赖关系进行建模的能力。然而这些模型通常指定每一层内每个标记特征的相似感受野。这种约束不可避免地限制了每个自注意力层捕获多尺度特征的能力，从而导致在处理具有不同尺度的多个对象的图像时性能下降。为了解决这个问题，作者提出了一种新颖的通用策略，称为分流自我注意 (SSA)，它允许 ViT 在每个注意层的混合尺度上对注意进行建模。SSA 的关键思想是将异构感受野大小注入到token中：在计算自注意力矩阵之前，它选择性地合并token以表示更大的对象特征，同时保留某些token以保留细粒度的特征。这种新颖的合并方案使self-attention能够学习不同大小的对象之间的关系，同时减少token数量和计算成本。各种任务的广泛实验证明了 SSA 的优越性。具体来说，基于 SSA 的 Transformer 实现了 84.0% 的 Top-1 准确率，并且在 ImageNet 上以只有一半的模型大小和计算成本超过了最先进的Focal Transformer，并且在 COCO 上超过了 Focal Transformer 1.3 mAP在相似的参数和计算成本下，ADE20K 上为 2.9 mIOU。

论文链接

https://arxiv.org/abs/2111.15193

猜你喜欢

MSSQL数据库轻松迁移，实现数据无缝转移（mssql数据库迁移）
Linux掌握Web应用发展之道（linux web 控制）
程序 Linux下运行C程序的指南（linux中运行c）
SQL与MSSQL：各有自身特性的不同之处（sql与mssql的区别）
压力测试：Apache压力测试工具的安装使用
Oracle优化：内存自动释放机制（oracle内存释放）
Linux授权用户组：实现安全控制管理（linux授权用户组）
Linux在线学习指南：一步步学习Linux（linux在线教程）
document.all用法（一）
检测Redis的安装完成度（检测redis的安装）
php中文本操作的类
Redis面临兜底何去何从（redis要兜底吗）
深入数据库通用的连接方式详解
可“搭便车”的鮣鱼仿生机器人诞生了，未来将应用于海洋生物探测等领域
MySQL中的安全加密技术（mysql的加密方式）
深入理解 PHP MySQL 排序原理，优化网站体验（phpmysql排序）
Mquery：一款带有Web前端的YARA恶意软件查询加速器

zl程序教程

当前栏目

[CVPR | 论文简读] 基于信息分流的多尺度自注意力机制

相关文章