【第30篇】Vision Transformer
30 transformer Vision
2023-09-14 09:05:41 时间
论文连接:https://arxiv.org/abs/2010.11929
GitHub·:https://github.com/google-research/vision_transformer
摘要
虽然 Transformer 架构已成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。 在视觉上,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。 我们表明,这种对 CNN 的依赖是不必要的,直接应用于图像块序列的纯变换器可以在图像分类任务上表现得非常好。 当对大量数据进行预训练并转移到多个中型或小型图像识别基准(ImageNet、CIFAR-100、VTAB 等)时,与 state-of-the- 相比,Vision Transformer (ViT) 获得了出色的结果 艺术卷积网络,同时需要更少的计算资源来训练。
1 简介
基于自注意力的架构,尤其是 Transformers,已成为自然语言处理 (NLP) 的首选模型。主要方法是在大型文本语料库上进行预训练,然后在较小的特定任务数据集上进行微调。由于 Transformers 的计算效率和可扩展性,训练具有超过 100B 参数的前所未有的模型成为可能。随着模型和数据集的增长,仍然没有饱和性能的迹象。
然而,在计算机视觉中,卷积架构仍然占主导地位。受 NLP 成功的启发,多项工作尝试将类似 CNN 的架构与自我注意相结合,其中一些完全取代了
相关文章
- Flask 学习-30.flask_jwt_extended 自定义 token 过期返回内容
- 每周以太坊进展 2022/7/30
- 《快学BigData》--Redis 总结(E)(30)
- 30天学会 React | 笔记
- 2022-12-19:大的国家。如果一个国家满足下述两个条件之一,则认为该国是 大国 :面积至少为 300 万平方公里(即,30
- 30. Groovy 语法-控制结构:if,switch,for,try等知识
- 30张图说清楚 TCP 协议
- 30 年 IT 老兵谈数字化:这就不是个技术活
- Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务,微软亚研原班人马打造
- MySQL Error number: MY-013897; Symbol: ER_IB_MSG_LOG_PRE_8_0_30_MISSING_FILE0; SQLSTATE: HY000 报错 故障修复 远程处理
- 30种症状证明你应该离开电脑到户外走走
- 移动端浏览器30个大坑,程序员必看!!!
- 世界第一个无人机快递网络下月在瑞士运营 物品 30 分钟内可达