zl程序教程

您现在的位置是:首页 >  其它

当前栏目

【第30篇】Vision Transformer

30 transformer Vision
2023-09-14 09:05:41 时间

image-20220323164916607
论文连接:https://arxiv.org/abs/2010.11929
GitHub·:https://github.com/google-research/vision_transformer

摘要

虽然 Transformer 架构已成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。 在视觉上,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。 我们表明,这种对 CNN 的依赖是不必要的,直接应用于图像块序列的纯变换器可以在图像分类任务上表现得非常好。 当对大量数据进行预训练并转移到多个中型或小型图像识别基准(ImageNet、CIFAR-100、VTAB 等)时,与 state-of-the- 相比,Vision Transformer (ViT) 获得了出色的结果 艺术卷积网络,同时需要更少的计算资源来训练。

1 简介

基于自注意力的架构,尤其是 Transformers,已成为自然语言处理 (NLP) 的首选模型。主要方法是在大型文本语料库上进行预训练,然后在较小的特定任务数据集上进行微调。由于 Transformers 的计算效率和可扩展性,训练具有超过 100B 参数的前所未有的模型成为可能。随着模型和数据集的增长,仍然没有饱和性能的迹象。

然而,在计算机视觉中,卷积架构仍然占主导地位。受 NLP 成功的启发,多项工作尝试将类似 CNN 的架构与自我注意相结合,其中一些完全取代了