zl程序教程

您现在的位置是:首页 >  其他

当前栏目

【Transformer】18、ACMix:On the Integration of Self-Attention and Convolution

On The and of 18 transformer self ATTENTION
2023-09-14 09:13:56 时间

在这里插入图片描述

一、背景和动机

卷积核自注意机制是两个很有效的特征提取方法,但这两个方法通常被认为是两种不同机制的方法。

卷积方法是对局部进行特征抽取,全局特征共享,自注意力方法是全局像素的权重提取。

本文作者认为这两者有很强的底层关系,所以从大范围上来说,这两者的计算机制是类似的。

之前也有一些工作将这两者进行结合,如:

  • SENet,CBAM 等则说明了自注意机制可以对卷积网络模型起到帮助。
  • SAN,BoTNet 等使用自注意模型来代替卷积操作
  • AA-ResNet,Container 等将两者进行了结合,但两个模块分别使用了不同的 path,所以本质上还是分别使用了两种机制。

所以,两者之间的底层联系其实还没有被完全探索

基于此,作者开始了探索两者之间的关系

分解两者之后,作者认为他们都是依赖于 1x1 卷积的,所以作者提出了一个混合模型——ACMix,将两者结合在一起。

二、方法

1、将输入特征使用 1x1 卷积映射为中间特征

2、将该中间特征分别使用自注意和卷积进行处理

在这里插入图片描述

ACMix 的过程如图2c所示:

Stage 1:使用 3 个 1x1 卷积,将输入映射为 3 种不同的特征,并将没种特征切分为 N pieces,此时就得到了 3xN 个中间特征

Stage 2:对 Stage 1 得到的中间特征分别处理

  • self-attention path:将中间特征聚合为 N 个组,每个组中包含了 3 个 pieces,每个 pieces 都来自于不同的 1x1 卷积产生的特征。然后将这 3 个 pieces 的特征用作 q、k、v,输入多头自注意模块中。
  • convolution path:使用全连接层产生 k 2 k^2 k2 个特征图,然后通过平移和聚合,产生和卷积相同的效果。

最后,使用如下方法聚合两者:
在这里插入图片描述

在这里插入图片描述

三、效果

在这里插入图片描述