您现在的位置是：首页 > 后端

当前栏目

【第49篇】Swin Transformer V2：扩展容量和分辨率

扩展分辨率 transformer 容量 V2 49

2023-09-14 09:05:41 时间

摘要

https://arxiv.org/pdf/2111.09883.pdf
大规模 NLP 模型已被证明可以显着提高语言任务的性能，并且没有饱和迹象。它们还展示了与人类一样的惊人的少发能力。本文旨在探索计算机视觉中的大规模模型。我们解决了大型视觉模型训练和应用中的三个主要问题，包括训练不稳定性、预训练和微调之间的分辨率差距以及对标记数据的渴望。提出了三种主要技术：1）残差后范数方法结合余弦注意提高训练稳定性； 2) 一种对数空间连续位置偏差方法，可有效地将使用低分辨率图像预训练的模型转移到具有高分辨率输入的下游任务； 3) 一种自我监督的预训练方法 SimMIM，以减少对大量标记图像的需求。通过这些技术，本文成功训练了一个 30 亿参数的 Swin Transformer V2 模型，这是迄今为止最大的密集视觉模型，并使其能够训练分辨率高达 1536 ×1536 的图像。它在 ImageNet-V2 图像分类、COCO 对象检测、ADE20K 语义分割和 Kinetics-400 视频动作分类等 4 个具有代表性的视觉任务上创造了新的性能记录。另请注意，我们的训练比 Google 的十亿级视觉模型高效得多，后者消耗的标记数据少 40 倍，训练时间少 40 倍。代码：https://github.com/microsoft/Swin-Transformer。

介绍

扩展语言模型已经取得了令人难以置信的成功。它显着提高了模型在语言任务上的性能并且该模型展示了与人类相似的惊人的少数镜头能力。自从有了 3.4 亿参数的 BERT 大模型，语言模型在几年内迅速扩大了 1000 多倍，达到 5300 亿个密集参数和 1.6 万亿个稀疏参数。这些大型语言模型还被发现具有越来越强大的小样本能力，类似于人类智能，可用于广泛的语言任务。

另一方面，

猜你喜欢

【华为机试真题 Python实现】数组的转换
Spire.Office for .NET 8.1.4 Crack
MySQL数据库(三)-表行的语句使用
Qt编写输入法终极版V2018
机器学习之决策树(ID3)算法与Python实现
爬虫的难点不在爬虫，而在对抗
【漏洞分析】两个例子-数组溢出修改返回函数与strcpy覆盖周边内存地址
C# winform 学习（二）
如何使用Tomcat实现WebSocket即时通讯服务服务端
HDU 1423 Greatest Common Increasing Subsequence(最长公共上升LCIS)
docker desktop 配置
华为OD机试 - 货币单位换算（Java & JS & Python）
怎么快速学好数据分析师
同级指针修饰内存失败以及解决方法
【Bringing Old Photos Back to Life】nonlocal block（非局部块）==＞针对结构化缺陷，利用全局上下文来恢复潜在特征
linux dig 命令使用方法
SmartImageView的使用
Coursera台大机器学习技法课程笔记05-Kernel Logistic Regression
minicom : usb访问arm
Docker容器实战之部署论坛
技术驱动：医疗、生命科学领域的本质是对数据的处理和反馈

相关主题

php7 安装扩展
一、linux扩展
对象的扩展
十、docker扩展
函数的扩展
扩展ACL
08.字符串扩展
SQL 扩展事件

zl程序教程

当前栏目

【第49篇】Swin Transformer V2：扩展容量和分辨率

摘要

介绍

相关文章