[CVPR 2022 oral | 论文简读] A-ViT:基于自适应Token策略的Vision Transformer模型
2023-02-18 16:48:05 时间
作者 | 汪逢生 编辑 | 李仲深
论文题目
A-ViT: Adaptive Tokens for Efficient Vision Transformer
摘要
本文提出了一种对不同复杂度图像,自适应调整推理代价视觉Transformer(ViT)的方法——A-ViT。A-ViT通过在推理过程中自动减少网络中处理的视觉Transformer中的token数量来实现这一点。作者为这项任务重新制定了自适应计算时间(Adaptive Computation Time ,ACT),丢弃冗余的空间token。视觉Transformer的结构特性使本文的自适应token缩减机制能够在不修改网络结构或推理硬件的情况下加快推理速度。作者证明了A-ViT不需要额外的参数或子网络,因为本文的方法基于原始网络参数学习能够自适应停止。作者进一步引入了分布先验正则化,与之前ACT方法相比,它可以稳定训练。在图像分类任务(ImageNet1K)中,作者表明提出的A-ViT在过滤信息性空间特征和减少总体计算量方面具有很高的效率。该方法将DeiT-Tiny和DeiT-Small的吞吐量分别提高了62%和38%,准确率仅下降0.3%,大大优于现有技术。
论文链接
https://arxiv.org/pdf/2112.07658.pdf
相关文章
- 系列文章| R语言分布滞后线性和非线性模型DLM和DLNM建模应用|附代码数据
- 系列文章| R语言分布滞后线性和非线性模型DLM和DLNM建模应用|附代码数据
- R语言JAGS贝叶斯回归模型分析博士生延期毕业完成论文时间|附代码数据
- Unity下如何实现RTMP或RTSP流播放和录制
- 图片懒加载之判断图片进入可视区域
- 【AJAX】对于AJAX 解析已经XMLHttpRequest对象对于异步的操作等等在项目中的体验
- SAP UI5 Smart Table 和 Smart Filter Bar 的联合使用方法介绍
- SAP Smart Table 的 Personalization(个性化配置)试读版
- 内科大深度学习期末复习笔记
- 【数据预处理】基于Pandas的数据预处理技术【前七个任务】
- SpringBoot:模块探究之spring-boot-devtools
- ginbinder 一次绑定 gin request 中的所有需要的数据
- ginbind 的实现过程-一起来看gin源码吧
- typescript 中的时间处理
- typescript 中的 const assertions
- 前端容器化第三弹 - vue3 项目容器化 - 通过 meta 注入后端地址
- 你会吗? 为什么长度为零的切片sl, 可以是用 sl[0:5] 而不报错
- map中的值对象虽然不能修改,但是可以替换
- GET 请求也能传递 Body 数据
- K8S嫁衣神功 - kustomize 的实用小技巧