您现在的位置是：首页 > IT要闻

当前栏目

何恺明MAE局限性被打破，与Swin Transformer结合，训练速度提升

2023-03-20 15:34:18 时间

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

自何恺明MAE横空出世以来，MIM（Masked Image Modeling）这一自监督预训练表征越来越引发关注。

但与此同时，研究人员也不得不思考它的局限性。

MAE论文中只尝试了使用原版ViT架构作为编码器，而表现更好的分层设计结构（以Swin Transformer为代表），并不能直接用上MAE方法。

于是，一场整合的范式就此在研究团队中上演。

代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM，它探索了Swin Transformer在MIM中的应用。

但与MAE相比，它在可见和掩码图块均有操作，且计算量过大。有研究人员发现，即便是SimMIM的基本尺寸模型，也无法在一台配置8个32GB GPU的机器上完成训练。

基于这样的背景，东京大学&商汤&悉尼大学的研究员，提供一个新思路。

何恺明MAE局限性被打破，与Swin Transformer结合，训练速度提升

不光将Swin Transformer整合到了MAE框架上，既有与SimMIM相当的任务表现，还保证了计算效率和性能——

将分层ViT的训练速度提高2.7倍，GPU内存使用量减少70%。

来康康这是一项什么研究？

当分层设计引入MAE

这篇论文提出了一种面向MIM的绿色分层视觉Transformer。

即允许分层ViT丢弃掩码图块，只对可见图块进行操作。

何恺明MAE局限性被打破，与Swin Transformer结合，训练速度提升

具体实现，由两个关键部分组成。

首先，设计了一种基于分治策略的群体窗口注意力方案。

将具有不同数量可见图块的局部窗口聚集成几个大小相等的组，然后在每组内进行掩码自注意力。

何恺明MAE局限性被打破，与Swin Transformer结合，训练速度提升

其次，把上述分组任务视为有约束动态规划问题，受贪心算法的启发提出了一种分组算法。

何恺明MAE局限性被打破，与Swin Transformer结合，训练速度提升

它可以自适应选择最佳分组大小，并将局部窗口分成最少的一组，从而使分组图块上的注意力整体计算成本最小。

表现相当，训练时间大大减少

结果显示，在ImageNet-1K和MS-COCO数据集上实验评估表明，与基线SimMIM性能相当的同时，效率提升2倍以上。

何恺明MAE局限性被打破，与Swin Transformer结合，训练速度提升

而跟SimMIM相比，这一方法在所需训练时间大大减少，消耗GPU内存也小得多。具体而言，在相同的训练次数下，在Swin-B上提高2倍的速度和减少60%的内存。

何恺明MAE局限性被打破，与Swin Transformer结合，训练速度提升

值得一提的是，该研究团队在有8个32GB V100 GPU的单机上进行评估的，而SimMIM是在2或4台机器上进行评估。

研究人员还发现，效率的提高随着Swin-L的增大而变大，例如，与SimMIM192相比，速度提高了2.7倍。

实验的最后，提到了算法的局限性。其中之一就是需要分层次掩码来达到最佳的效率，限制了更广泛的应用。这一点就交给未来的研究。

何恺明MAE局限性被打破，与Swin Transformer结合，训练速度提升

而谈到这一研究的影响性，研究人员表示，主要就是减轻了MIM的计算负担，提高了MIM的效率和有效性。

感兴趣的旁友，可戳下方链接了解更多~

论文链接：

https://arxiv.org/abs/2205.13515

GitHub链接：

https://github.com/LayneH/GreenMIM

SimMIM论文链接：

https://arxiv.org/abs/2111.09886

猜你喜欢

Python中的函数与方法以及Bound Method和Unbound Method
从本体论开始说起——运营商关系图谱的构建及应用
一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解
一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解
Flask中的请求上下文和应用上下文
深入探讨Java中的异常与错误处理
研究学习Kotlin的一些方法
如何成为一名数据科学家？
金融服务领域的大数据：即时分析
影响大数据、机器学习和人工智能未来发展的8个因素
从未见过的堂兄杀了人，你的DNA是关键证据
一文贯通python文件读取
数据显示Java热度持续下落，日子屈指可数？
从0开始构建一个属于你自己的PHP框架
如何将Hadoop集成到工作流程中？这6个优秀实践必看
2017年5月编程语言排行榜：Java与C语言优势正开始缩小
SEO公司使用大数据优化其模型的5种方法
Java多线程之内置锁与显示锁
关于Web Workers你需要了解的七件事
20个安全可靠的免费数据源，各领域数据任你挑

zl程序教程

当前栏目

何恺明MAE局限性被打破，与Swin Transformer结合，训练速度提升

当分层设计引入MAE

表现相当，训练时间大大减少

相关文章