霸榜多个CV任务,开源仅两天,微软分层ViT模型收获近2k star
屠榜各大 CV 任务的微软 Swin Transformer,近日开源了代码和预训练模型。
自 2017 年 6 月谷歌提出 Transformer 以来,它便逐渐成为了自然语言处理领域的主流模型。最近一段时间,Transformer 更是开启了自己的跨界之旅,开始在计算机视觉领域大展身手,涌现出了多个基于 Transformer 的新模型,如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。由此,「Transformer 是万能的吗?」也一度成为机器学习社区的热门话题。
不久前,微软亚研的研究者提出了一种通过移动窗口(shifted windows)计算的分层视觉 Transformer,他们称之为 Swin Transformer。相比之前的 ViT 模型,Swin Transformer 做出了以下两点改进:其一,引入 CNN 中常用的层次化构建方式构建分层 Transformer;其二,引入局部性(locality)思想,对无重合的窗口区域内进行自注意力计算。
论文链接:
https://arxiv.org/pdf/2103.14030.pdf
首先来看 Swin Transformer 的整体工作流,下图 3a 为 Swin Transformer 的整体架构,图 3b 为两个连续的 Swin Transformer 块。
该研究的亮点在于利用移动窗口对分层 Transformer 的表征进行计算。通过将自注意力计算限制在不重叠的局部串口,同时允许跨窗口连接。这种分层结构可以灵活地在不同尺度上建模,并具有图像大小的线性计算复杂度。下图 2 为在 Swin Transformer 架构中利用移动窗口计算自注意力的工作流:
模型本身具有的特性使其在一系列视觉任务上都实现了颇具竞争力的性能表现。其中,在 ImageNet-1K 数据集上实现了 86.4% 的图像分类准确率、在 COCO test-dev 数据集上实现了 58.7% 的目标检测 box AP 和 51.1% 的 mask AP。目前,在 COCO minival 和 COCO test-dev 两个数据集上,Swin-L(Swin Transformer 的变体)在目标检测和实例分割任务中均实现了 SOTA。
此外,在 ADE20K val 和 ADE20K 数据集上,Swin-L 也在语义分割任务中实现了 SOTA。
开源代码和预训练模型
Swin Transformer 论文公开没多久之后,微软官方于近日在 GitHub 上开源了代码和预训练模型,涵盖图像分类、目标检测以及语义分割任务。上线仅仅两天,该项目已收获 1900 星。
项目地址:
https://github.com/microsoft/Swin-Transformer
首先图像分类任务,Swin-T、Swin-S、Swin-B 和 Swin-L 变体模型在 ImageNet-1K 和 ImageNet-22K 数据集上的准确率结果如下:
其次目标检测任务:Swin-T、Swin-S、Swin-B 和 Swin-L 变体模型在 COCO 目标检测(2017 val)数据集上的结果如下:
最后语义分割任务:Swin-T、Swin-S、Swin-B 和 Swin-L 变体模型在 ADE20K 语义分割(val)数据集上的结果如下。目前,Swin-L 取得了 53.50% 的 SOTA 验证 mIoU 分数。
相关文章
- 《安富莱嵌入式周报》第281期:Keil Studio发布VSCode插件,微软嵌入式IDE升级,开源穿戴手表,CAN XL汽车单片机,USB4 V2.0规范,
- 【微软2019高潜开源项目】Windows Terminal开发者内测版简易安装教程
- 《安富莱嵌入式周报》第303期:微软推出嵌入式安全物联网RTOS CHERIoT,超强的产品级开源电机控制器项目,含上位机,蓝牙标准V5.4,玩转与或非编程操作
- 启科量子国产量子编程软件项目将启动开源计划
- 一款好用的开源家庭服务器管理工具
- 开源新一代项目管理系统,全行业覆盖的一站式项目协作工具
- 笔精墨妙,妙手丹青,微软开源可视化版本的ChatGPT:Visual ChatGPT,人工智能AI聊天发图片,Python3.10实现
- ChatGPT平替「小羊驼」Mac可跑!2行代码单GPU,UC伯克利再发70亿参数开源模型
- Linux:开源技术的多样性(linux的分支)
- 『Linux的多元分支:探索开源之路』(linux的分支)
- 使用开源搜索引擎 YaCy 的技巧
- 生物黑客创造开源胰岛素
- 2015:微软开源年
- 微软收购 .NET 的开源实现 Xamarin 项目的公司
- 要获得开源社区的信任,微软还需要做的一件事
- 微软开源了一个更安全的 C 语言版本:Checked C
- 硬核观察 | 微软开源抓出 SolarWinds 黑客的工具代码
- 硬核观察 | 鸿蒙 OS 2.0 将陆续开源
- 如何成为一名开源程序员
- 微软开源:一场内部策反的自我革命
- 数字货币的一大步:Visa合作公司 Chain 宣布进行区块链开源
- 谷歌布局大数据:开源平台 Apache Beam 正式发布
- 开源之选,红帽企业 Linux助力企业数字化转型(红帽企业linux)