您现在的位置是：首页 > 其它

当前栏目

RegNet网络结构与搭建

搭建网络结构

2023-09-11 14:17:50 时间

前言

原论文名称：Designing Network Design Spaces
原论文下载地址：https://arxiv.org/abs/2003.13678.pdf
论文中提供的源码： https://github.com/facebookresearch/pycls
自己使用Pytorch实现的RegNet代码： Test10_regnet/model.py

近些年来，NAS（Neural Architecture Search）网络搜索技术非常火，但这对计算资源要求也比较高（都是大厂玩的东西）。包括这篇论文中的RegNet也有使用到NAS技术。但在论文中作者一再强调这篇论文与之前的一些NAS论文不同（例如MobileNetv3，EfficientNet），之前的一些有关NAS的论文都是在给定的设计空间（designed search space）中通过搜索算法去搜索出一组最佳参数组合。但在这篇论文中作者要探究的是如何去设计设计空间（design design spaces）并发现一些网络的通用设计准则（network design principles），而不是仅仅去搜索出一组参数。原论文中有这么一段话：

The majority of work in NAS focuses on the search algorithm, i.e., efficiently finding the best network instances within a fixed, manually designed search space (which we call a design space). Instead, our focus is on a paradigm for designing novel design spaces. The two are complementary: better design spaces can improve the efficiency of NAS search algorithms and also lead to existence of better models by enriching the design space.

那RegNet的性能到底如何呢，参考原论文给出的一些指标：

在轻量级网络领域，低FLOPs的RegNet模型也能达到很好的效果，和MobileNetV2以及ShuffleNetV2性能有的一比。
与当时分类网络的天花板EfficientNet对比，可以看到RegNetY-8.0GF的错误率比EfficientNet-B5更低，且推理速度(infer)快五倍。

设计设计空间

这篇论文中的主要内容基本都是在讲，如何从一个给定的原始设计空间AnyNet一步步探索出最终的RegNet空间。如下图所示，从最开始的设计空间A到设计空间B再到设计空间C，随着加入的限制越来越多搜索范围越来越小，通过右侧的error-cumulative prob.曲线可以看出，设计空间B内的模型效果总体是要好于设计空间A，而设计空间C内的模型效果总体是要好于设计空间B。这就是这篇论文在探索的事情。如果不想看论文中的设计过程，可以直接跳到后面的网络结构解析部分。
design space

AnyNet Design Space

AnyNet设计空间是这篇论文中提出的最原始的设计空间，如下图所示：
regnet framework 在该设计空间中，网络的主体就是由三部分组成（stem，body，head）。其中stem和head是固定不变的，stem就是一个普通的卷积层（默认包含bn以及relu），卷积核大小为3x3，步距为2，卷积核个数为32，head就是分类网络中常见的分类器，由一个全局平均池化层和全连接层构成。所以网络中最主要的就是body部分，body是由4个stage堆叠组成，而stage是由一系列block堆叠组成。但block的详细结构以及参数并没有做任何限制，这就是AnyNet。

AnyNetX（A）Design Space

论文作者说，根据他们的经验将block设计为standard residual bottlenecks block with group convolution即带有组卷积的残差结构（和ResNext的block类似），如下图所示，左图为block的stride=1的情况，右图为block的stride=2的情况：
blockx 由图可知，主分支都是一个1x1的卷积（包括bn和relu）、一个3x3的group卷积（包括bn和relu）、再接一个1x1的卷积（包括bn）。shortcut捷径分支上当stride=1时不做任何处理，当stride=2时通过一个1x1的卷积（包括bn）进行下采样。图中的r代表分辨率简单理解为特征矩阵的高、宽，当步距s等于1时，输入输出的r保持不变，当s等于2时，输出的r为输入的一半。w代表特征矩阵的channel（注意当s=2时，输入的是 $w_{i-1}$ 输出的是 $w_i$ 即chennel会发生变化）。g代表group卷积中每个group的group width，b代表bottleneck ratio即输出特征矩阵的channel缩减为输入特征矩阵channel的 $\frac1b$ .
此时就从AnyNet的设计空间缩小到AnyNetX空间了，该空间也称为 $AnyNetX_A$ 。此时的设计空间依旧很大，接着论文中说为了获得有效的模型，又加了些限制： $d_i \leq 16$ （有16种可能）, $w_i \leq 1024$ 且取8的整数倍（有128种可能）， $b_i \in \left\{1, 2, 4\right\}$ （有3种可能）, $g_i \in \left\{1, 2, 4, 8, 16,32\right\}$ （有6种可能），其中 $d_i$ 表示stage中重复block的次数，由于body中由4个stage组成。那么现在还有大约 $10^{18}$ 种模型配置参数（想要在这么大的空间去搜索基本不可能）：
$(16\cdot128\cdot3\cdot6)^4\approx10^{18}$

AnyNetX（B）Design Space

接着作者又尝试将所有stage中的block的 $b_i$ 都设置为同一个参数 $b$ （shared bottleneck ratio），此时的设计空间记为 $AnyNetX_B$ ，然后在 $AnyNetX_A$ 和 $AnyNetX_B$ 中通过log-uniform sampling采样方法分别采样500的模型，并在imagenet上训练10个epochs，绘制的error-cumulative prob.对比如下图所示：
anyab 通过上图可以发现，将所有stage中的block的 $b_i$ 都设置为同一个参数 $b$ （shared bottleneck ratio）后并没有什么明显的变化。

AnyNetX（C）Design Space

接着作者又尝试将所有stage中的block的 $g_i$ 都设置为同一个参数 $g$ （shared group width），此时的设计空间记为 $AnyNetX_C$ ，和之前同样采样500个模型样本并进行训练接着与 $AnyNetX_B$ 进行比较，如下图所示：

anybc 通过上图可以发现，将所有stage中的block的 $g_i$ 都设置为同一个参数 $g$ （shared group width）后并没有什么明显的变化。并且作者发现了一个有趣的现象当 $g > 1$ 时，效果会更好。

AnyNetX（D）Design Space

作者进一步分析了 $AnyNetX_C$ 空间中效果好的模型以及效果差的模型，发现在好的模型中 $w_i$ 是呈现递增的趋势。如下图所示，第一行是效果好的模型 $w_i$ 的变化趋势，第二行是效果差的模型 $w_i$ 的变化趋势：

goodandbad 然后在 $AnyNetX_C$ 空间的基础上加上 $w_{i+1} \geq w_i$ 限制得到 $AnyNetX_D$ 空间。下图展示了不对 $w_i$ 做限制以及对 $w_i$ 做不同限制的对比，明显加上 $w_{i+1} \geq w_i$ 限制后效果更好：

AnyNetX（E）Design Space

作者在 $AnyNetX_D$ 空间中进一步分析，发现对于好的模型 $d_i$ 同样有递增的趋势（注意，这个趋势仅指stage1到stage3，不包括stage4）. 然后在 $AnyNetX_D$ 空间基础上加上 $d_{i+1} \geq d_i$ 的限制得到 $AnyNetX_E$ 空间。下图展示了不对 $d_i$ 做限制以及对 $d_i$ 做不同限制的对比，可以发现加上 $d_{i+1} \geq d_i$ 限制后效果更好：

anynete

RegNet Design Space

如下图所示，作者在 $AnyNetX_E$ 空间采样的一系列模型中选取了Top-20，并绘制了他们每个block输出特征矩阵的width变化趋势。图中每一条灰色实线就代表一个模型。图中的黑色实线是作者通过一个线性函数来拟合的（注意图中的纵坐标刻度不是线性的，所以黑色的实线看着是一条曲线）。
$w_j = 48 \cdot (j+1) \ \ \ \ \ {\rm for} \ \ \ 0 \leq j \leq 20$
regnet 刚刚提到作者是用一个线性函数来拟合的，也就是说每个block的width都是不一样的，但在我们实际搭建网络过程中，每个stage中的所有block的width应该是一样的，即应该是分段常数函数形式（piecewise constant function）。所以接下来的工作就是去想办法获得这个分段常数函数（To see if a similar pattern applies to individual models, we need a strategy to quantize a line to a piecewise constant function.）。接下来就是作者给出的关于获取分段常数函数的流程：

首先引入一个线性参数化函数，其中 $j$ 为block的索引， $d$ 为block的总数量论文中称depth，初始化 $w_0 > 0$ （线性函数中的 $y = a x + b$ 的 $b$ ），斜率 $w_a > 0$ ， $u_j$ 为对应block的width：
$u_j = w_0 + w_a \cdot j \ \ \ \ {\rm for} \ \ 0 \leq j < d \ \ \ \ (2)$
为了量化 $u_j$ ，作者引入了一个新的参数 $w_m > 0$ ，根据下面的公式(3)以及上面的公式(2)可以计算得到每个 $u_j$ 对应的 $s_j$ ：
$u_j = w_0 \cdot w_m^{s_j} \ \ \ \ \ (3)$
接着将上一步计算得到的每个 $u_j$ 对应的 $s_j$ 进行四舍五入（记为 $\left\lceil s_j \right\rfloor$ ），并根据下面的公式(4)可以得到量化后的 $w_j$ ：
$w_j = w_0 \cdot w_m^{\left\lceil s_j \right\rfloor} \ \ \ \ \ (4)$
其实在源码实现中还有两个小细节，一个是将刚刚计算得到的 $w_j$ 给调整到离他最近的8的整数倍。还有一个是会根据传入的参数 $g$ （Group Conv中每个group的group width）进一步调整，将 $w_j$ 给调整到离他最近的 $g$ 的整数倍（详情可看下源码）。

通过上面公式我们就能对每个block的width进行量化，量化后相同的width就属于同一stage，如下图所示，作者也说了，该论文只讨论stage的个数4的情况，所以使用论文中给的参数计算得到的stage数肯定等于4：

block_width 通过以上分析，我们在 $AnyNetX_E$ 空间基础上指定 $d,w_0, w_a, w_m, b, g$ 的值（通过上面的公式(2)-(4)可以得到block的width和depths），那么整个网络的结构就固定了。所以作者称在 $AnyNetX_E$ 空间基础上使用 $d,w_0, w_a, w_m, b, g$ 这6个自由变量来控制网络结构的空间为RegNet空间。接着我们再看论文中的一张表，下表展示了从 $AnyNetX_a$ 到 $R e g N e t$ 空间的变化过程（记录了限制条件，自由度以及空间内所有可能的组合的数）：

design_space_summary
后面还有一些内容，大家可以去看下原论文，这里就不在赘述了。对于论文中给的每个网络的 $d,w_0, w_a, w_m, b, g$ 参数在RegNetX/Y模型详细参数章节有给出，可通过本文目录跳转至相应章节。

RegNet网络结构详解

RegNet结构框架

首先看下下面这幅图，这幅图是原论文中给出的General Network structure，Regnet的框架结构也是一样的。
regnet framework
（a）图中展示了网络主要由三部分组成，stem、body和head。

其中stem就是一个普通的卷积层（默认包含bn以及relu），卷积核大小为3x3，步距为2，卷积核个数为32.
其中body就是由4个stage堆叠组成，如图（b）所示。每经过一个stage都会将输入特征矩阵的height和width缩减为原来的一半。而每个stage又是由一系列block堆叠组成，每个stage的第一个block中存在步距为2的组卷积（主分支上）和普通卷积（捷径分支上），剩下的block中的卷积步距都是1，和ResNet类似。
其中head就是分类网络中常见的分类器，由一个全局平均池化层和全连接层构成。

RegNet block详解

接下来再看下论文中关于block的结构图，（a）图为步距stride=1的情况，（b）图是步距stride=2的情况。
blockx
通过上图可知，文中的block和ResNext网络中的block基本一致。主分支都是一个1x1的卷积（包括bn和relu）、一个3x3的group卷积（包括bn和relu）、再接一个1x1的卷积（包括bn）。shortcut捷径分支上当stride=1时不做任何处理，当stride=2时通过一个1x1的卷积（包括bn）进行下采样。图中的r代表分辨率简单理解为特征矩阵的高、宽，当步距s等于1时，输入输出的r保持不变，当s等于2时，输出的r为输入的一半。w代表特征矩阵的channel（注意当s=2时，输入的是 $w_{i-1}$ 输出的是 $w_i$ 即chennel会发生变化）。g代表group卷积中每个group的group width，b代表bottleneck ratio即输出特征矩阵的channel缩减为输入特征矩阵channel的 $\frac1b$ .
而在论文章节四中，作者给出了一个结论：

We also observe that the best models use a bottleneck ratio b of 1.0 (top-middle), which effectively removes the bottleneck (commonly used in practice).

就是说当b取1时效果最好（感觉和ShuffleNetV2中G1准则相似）。下面这副图是我重绘的，比原图要更清楚点。

block2 这里还要注意一点，论文中有RegNetX和RegNetY，两者的区别仅在于RegNetY在block中的Group Conv后接了个SE（Squeeze-and-Excitation）模块。 自从SENet的提出，近些年的网络基本都会使用SE模块。在RegNet中的SE模块与EfficientNet中的SE模块类似。如下图所示，SE模块一般是由一个全局平均池化层和两个全连接层组成。在RegNet中，全连接层1（FC1）的节点个数是等于输入该block的特征矩阵channel的四分之一（不是Group Conv输出特征矩阵channal的四分之一），并且激活函数是ReLU。全连接层2（FC2）的节点个数是等于Group Conv输出特征矩阵的channal，并且激活函数是Sigmoid。

se module

RegNetX模型详细参数

下图为论文中给出的不同FLOPs下的RegNetX模型详细参数。搭建网络我们仅需使用 $d_i$ ， $w_i$ ， $g$ 这三个参数，加上刚刚讲的内容就能搭建网络了（ $b$ 参数都是1）。其中 $d_i$ 代表每个stage重复block的次数（前面说了body都是由4个stage堆叠组成的，所以 $d_i$ 中都是4个元素）。 $w_i$ 代表每个stage输出特征矩阵的channel。 $g$ 代表block中Group Conv每个group的group width。
至于 $w_a$ ， $w_0$ ， $w_m$ 这三个参数是用来计算 $d_i$ ， $w_i$ 这两个参数的（在上文RegNet Design Space章节有讲，有兴趣的可以看下），在源码实现中都是通过 $w_a$ ， $w_0$ ， $w_m$ 来计算 $d_i$ ， $w_i$ 的。但如果嫌麻烦，可以直接使用图中标注好的 $d_i$ ， $w_i$ 参数。
regnetx_cnf
下表展示了RegNetX这一系列网络在ImegeNet上训练100epoch后的top-1 error。
regnetx_acc

RegNetY模型详细参数

下图为论文中给出的不同FLOPs下的RegNetY模型详细参数（刚刚也说了，RegNetY和RegNetX在结构上的唯一不同就是在Group Conv后加上了Squeeze-and-Excitation模块）。同样我们仅需使用 $d_i$ ， $w_i$ ， $g$ 这三个参数即可搭建出网络。其中 $d_i$ 代表每个stage重复block的次数。 $w_i$ 代表每个stage输出特征矩阵的channel。 $g$ 代表block中Group Conv每个group的group width。
regnety_cnf
下表展示了RegNetY这一系列网络在ImegeNet上训练100epoch后的top-1 error。

regnety_acc

猜你喜欢

设计模式-简单工厂模式
Zabbix4.0架构理解-zabbix的工作方式
[Oracle工程师手记]如何获得 RMAN 的 debug log
JVM系列之:Contend注解和false-sharing
《动手玩转Arduino》——第10章用触摸屏获得用户输入 10.1 触摸屏
Android RecyclerView实现选中Item变色的最精简高效实现(绝不会出现点击时其它item偶尔也被选中现象)
Python的7大就业方向，你知道几个？
Office对手！Ubuntu办公套件的十大改进
Fiddler模拟post四种请求数据
11gR2 集群(CRS/GRID)新功能—— SCAN(Single Client Access Name)
用华为HMS ML kit人体骨骼识别技术，Android快速实现人体姿势动作抓拍 
(译) JSON-RPC 2.0 规范(中文版)
如何解析oracle执行计划
测试进度监控
Spring启动时获取自定义注解的属性值
flask插件系列之SQLAlchemy实用技巧
关于静态与动态之辩的一点想法
office 2007
在VS2010中使用Git【图文】转
java反射机制剖析（二）— Class Loader

相关主题

dns服务搭建
FTP服务器搭建
PHP环境搭建
搭建gitlab
es 集群的搭建
HBase 环境搭建
Hadoop环境搭建
二、kubernetes搭建集群
Hadoop伪分布式搭建
搭建Zookeeper集群
ElasticSearch集群搭建
mac环境搭建
搭建FastDFS
jenkins搭建
Linux下搭建 NFS
Lua 环境搭建

zl程序教程