您现在的位置是：首页 > 其它

当前栏目

【第30篇】Vision Transformer

30 transformer Vision

2023-09-14 09:05:41 时间

论文连接：https://arxiv.org/abs/2010.11929
GitHub·：https://github.com/google-research/vision_transformer

摘要

虽然 Transformer 架构已成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉上，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构不变。我们表明，这种对 CNN 的依赖是不必要的，直接应用于图像块序列的纯变换器可以在图像分类任务上表现得非常好。当对大量数据进行预训练并转移到多个中型或小型图像识别基准（ImageNet、CIFAR-100、VTAB 等）时，与 state-of-the- 相比，Vision Transformer (ViT) 获得了出色的结果艺术卷积网络，同时需要更少的计算资源来训练。

1 简介

基于自注意力的架构，尤其是 Transformers，已成为自然语言处理 (NLP) 的首选模型。主要方法是在大型文本语料库上进行预训练，然后在较小的特定任务数据集上进行微调。由于 Transformers 的计算效率和可扩展性，训练具有超过 100B 参数的前所未有的模型成为可能。随着模型和数据集的增长，仍然没有饱和性能的迹象。

然而，在计算机视觉中，卷积架构仍然占主导地位。受 NLP 成功的启发，多项工作尝试将类似 CNN 的架构与自我注意相结合，其中一些完全取代了

猜你喜欢

MySQL Status Innodb_os_log_pending_writes 数据库状态作用意思及如何正确
OCX控件签名
Batch Rename with Linux： Unlocking a Powerful Tool（批量重命名linux）
Redis实现最佳性能:实践指南（redis最佳实践）
刘江川院士：边缘计算如何应对能源互联网的碎片化和复杂性？ | CCF-GAIR 2020
python中命令行的应用实践
一个php作的文本留言本的例子(二)
shopify craft主题修改模块配置
《Go语言精进之路：从新手到高手的编程思想、方法和技巧1》1-3章笔记
iOS 裁包大作战 —— JOOX Music 如何瘦身40MB
MetaDaily｜Bilibili探索动漫Web3创新，Linux基金会成立开放元宇宙基金会
Linux后台脚本精彩自动化之旅（linux后台脚本）
服务如何轻松实现Redis服务的自动开启（如何自动开启redis）
使用断点调试代码「建议收藏」
如何做好oracle数据库监控点的管理（oracle数据库监控点）
核心API详解编程语言
强化学习技巧五：numba提速python程序
Redis锁系统拥有高度安全性的可靠功能（redis锁带值）
路径Linux SO库文件路径探索之旅（linuxso库文件）
【说站】js不同类型的工厂函数
Linux如何查看流量和端口信息（linux查看流量端口）
ORA-24414: Only number sessions could be started. ORACLE 报错故障修复远程处理
使用 Elixir 语言编写一个小游戏

相关主题

zl程序教程

当前栏目

【第30篇】Vision Transformer

摘要

1 简介

相关文章