【第25篇】力压Tramsformer,ConvNeXt成了CNN的希望
25 CNN 希望
2023-09-14 09:05:41 时间
论文链接:https://arxiv.org/pdf/2201.03545.pdf
代码链接:https://github.com/facebookresearch/ConvNeXt
如果github不能下载,可以使用下面的连接:
https://gitcode.net/hhhhhhhhhhwwwwwwwwww/ConvNeXt
视觉识别的“咆哮的 20 年代”始于 Vision Transformers (ViTs) 的引入,它迅速取代了 ConvNets,成为最先进的图像分类模型。另一方面,普通的 ViT 在应用于目标检测和语义分割等一般计算机视觉任务时面临困难。正是分层 Transformers(例如,Swin Transformers)重新引入了几个 ConvNet 先验,使 Transformers 作为通用视觉骨干实际上可行,并在各种视觉任务上表现出卓越的性能。然而,这种混合方法的有效性在很大程度上仍归功于 Transformer 的内在优势,而不是卷积固有的归纳偏差。在这项工作中,我们重新检查了设计空间并测试了纯 ConvNet 所能达到的极限。我们逐渐将标准 ResNet “现代化”为视觉 Transformer 的设计,并在此过程中发现了导致性能差异的几个关键组件。这一探索的结果是一系列纯 ConvNet 模型,称为 ConvNeXt。 ConvNeXts 完全由标准 ConvNet 模块构建,在准确性和可扩展性方面与 Transformer 竞争,实现 87.8% ImageNet top-1 准确率,在 COCO 检测和 ADE20K 分割方面优于 Swin Transformers,同时保持标准 C
相关文章
- 1007 Maximum Subsequence Sum (25分) 求最大连续区间和
- 25、BroadCastRecevier
- Hudi(25):Hudi集成Hive之外表
- 《安富莱嵌入式周报》第237期:2021.10.25--2021.10.31
- atitit 编程语言选型知识点体系.docx 编程语言选型时,你需要考虑的几个方面 目录 1. 1.2. 类型系统51 2. 1.5. 语言规范251 3. 1.6. 编程范式52
- 1015 德才论 (25 分)—PAT (Basic Level) Practice (中文)
- Redis缓存那点破事 , 绝杀面试官 25 问
- PAT排名汇总分数 25
- 【开发者思维】优秀开发者应该具备的25个思维习惯
- 深入浅出matplotlib(25):模块patches绘制几何图形
- 深入浅出Flask(25): H-ui前端框架的导航
- 回顾“90后”——MISRA的25年岁月
- 【DL】第 3 章 : 跨行业使用的前 25 个深度学习应用程序
- 谷歌浏览器的源码分析(25)
- 回顾“90后”——MISRA的25年岁月