您现在的位置是：首页 > Java

当前栏目

[CVPR 2022 oral | 论文简读] A-ViT:基于自适应Token策略的Vision Transformer模型

2023-02-18 16:48:05 时间

作者 | 汪逢生编辑 | 李仲深

论文题目

A-ViT: Adaptive Tokens for Efficient Vision Transformer

摘要

本文提出了一种对不同复杂度图像，自适应调整推理代价视觉Transformer（ViT）的方法——A-ViT。A-ViT通过在推理过程中自动减少网络中处理的视觉Transformer中的token数量来实现这一点。作者为这项任务重新制定了自适应计算时间（Adaptive Computation Time ，ACT），丢弃冗余的空间token。视觉Transformer的结构特性使本文的自适应token缩减机制能够在不修改网络结构或推理硬件的情况下加快推理速度。作者证明了A-ViT不需要额外的参数或子网络，因为本文的方法基于原始网络参数学习能够自适应停止。作者进一步引入了分布先验正则化，与之前ACT方法相比，它可以稳定训练。在图像分类任务（ImageNet1K）中，作者表明提出的A-ViT在过滤信息性空间特征和减少总体计算量方面具有很高的效率。该方法将DeiT-Tiny和DeiT-Small的吞吐量分别提高了62%和38%，准确率仅下降0.3%，大大优于现有技术。

论文链接

https://arxiv.org/pdf/2112.07658.pdf

猜你喜欢

挖一挖C#中那些我们不常用的东西之系列（4）——GetHashCode，ExpandoObject
我也要谈谈大型网站架构之系列（4）——分布式中的异步通信
我也要谈谈大型网站架构之系列（3）——死了都要说的缓存
我也要谈谈大型网站架构之系列（2）——纵观历史演变（下）
我也要谈谈大型网站架构之系列（1）——纵观历史演变（上）
抛弃NVelocity，来玩玩Razor
挖一挖C#中那些我们不常用的东西之系列（3）——StackTrace，Trim
挖一挖C#中那些我们不常用的东西之系列（2）——IsXXX 系列方法
挖一挖C#中那些我们不常用的东西之系列（1）——ToDictionary,ToLookup
AS与.net的交互——详解UrlRequest
AS与.net的交互——加载web上的xml
看。。。很多算法问题都能找到它的现实原型
那些年，翻过山，趟过河，挖了山丘，黑了河沟，终于还是遇到了——跨服务器查询
经典算法题每日演练——第二十五题块状链表
经典算法题每日演练——第二十四题梳排序
经典算法题每日演练——第二十三题鸡尾酒排序
经典算法题每日演练——第二十二题奇偶排序
sql server 小记——分区表（上）
vs中不得不会的一些小技巧(1)——细说查找
Aforge.net之旅——开篇：从识别验证码开始

zl程序教程

当前栏目

[CVPR 2022 oral | 论文简读] A-ViT:基于自适应Token策略的Vision Transformer模型

相关文章