您现在的位置是：首页 > 其它

当前栏目

【Transformer】14、Are Transformers More Robust Than CNNs?

14 are transformer more than Transformers

2023-09-14 09:13:56 时间

文章目录

在这里插入图片描述
出处：NIPS 2021

一、背景

CNN 被广泛用于计算机视觉任务中，其成功的主要原因在于 “卷积” 这一操作，“卷积” 能够引入一定的归纳偏置，如平移不变性等。

最近，未使用卷积的 vision transformer 结构在计算机视觉领域也取得了很大的成功，ViT 主要使用自注意力机制，来实现特征提取。

二、动机

有一些学者提出，Transformer 比 CNN 更加鲁棒，但作者认为他们的结论仅仅来源于现有的实验，两者并没有被放到相同的体量下来对比。比如使用 ResNet 50（约25M 参数）和 ViT-B（约86M参数）进行对比，而且训练数据集、epoch数、数据增强方法都有不同。所以作者认为谁更鲁棒的问题仍然是一个开放的问题。

所以，作者在本文中对 Transformer 和 CNN 进行了一次公平的对比

DeiT-S (22M, 76.8% top1 acc) VS. ResNet 50 (25M, 76.9% top1 acc)

三、方法

作者主要从两方面进行性能对比：

对抗鲁棒性

它们是通过向图像添加人类察觉不到的扰动或小、大小的 patch 来制作的，这会导致深度学习网络产生错误的预测，
分布外样本的鲁棒性

对网络使用和训练数据不同分布的测试数据进行测试

四、结论

Transformer 在对抗鲁棒性上没有 CNN 表现好

在这里插入图片描述

Transformer 模型能够更好的对训练数据分布外的数据进行预测

在这里插入图片描述

猜你喜欢

python 进程
【算法】算法设计与分析试题（含答案）
【Linux 内核】调度器 ⑥ ( task_woken 函数 | set_cpus_allowed 函数 | rq_online 函数 | rq_offline 函数 )
MongoDB最简单的入门教程之四：使用Spring Boot操作MongoDB
移动互联网时代银行业面七大挑战
【JVM】肝了一周，吐血整理出这份超硬核的JVM笔记（升级版）！！
【推荐】英国金融时报推荐的数据可视化图表分类图
Paper：《Explainable AI for Trees: From Local Explanations to Global Understanding树类的可解释性：从局部解释到全局理解》翻
【云栖大会】开发者技术峰会：开源专场
【Go语言】【11】GO语言的包和函数
DL之SegNet：SegNet图像分割/语义分割算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
【IndexOf】【lastIndexOf】【split】【substring】用法详解
从浏览器地址栏输入url到显示页面的过程
httpclient: 设置请求的超时时间，连接超时时间等
从单体架构到微服务架构&最佳实践: Monolithic to Microservices Architecture
Java中数组二分法查找
EasyDarwin开源流媒体云平台之云台ptz控制设计与实现
用JAVA的抽象类实现编码组合进度的灵活性

相关主题

zl程序教程

当前栏目

【Transformer】14、Are Transformers More Robust Than CNNs?

文章目录

一、背景

二、动机

三、方法

四、结论

相关文章