您现在的位置是：首页 > 其他

当前栏目

《Learning both Weights and Connections for Efficient Neural Networks》论文笔记

论文笔记 for and learning Networks Neural Efficient

2023-09-11 14:22:29 时间

1. 论文思想

深度神经网络在计算与存储上都是密集的，这就妨碍了其在嵌入式设备上的运用。为了解决该问题，便需要对模型进行剪枝。在本文中按照网络量级的排序，使得通过只学习重要的网络连接在不影响精度的情况下减少存储与计算量。论文中的方法分为三步：首先，使用常规方法训练模型；使用剪枝策略进行模型修剪；在修剪模型的基础上进行finetune。经过试验证明改文章提出的方法使得AlexNet的大小减小了9倍，参数量从61百万降到了6.7百万，同时不会带来精度上的损失。

大型的网络会带来更多电能的损失，关系如下图
这里写图片描述
在本文中该文章中使用如下图中左边的三步操作进行模型剪枝，最后得到的结果如下图右图所示

在之前的GoogleNet中后面的使用Average Pooling替换全连接层，从而使得网络的参数量下降。剪枝在之前被用作是模型复杂度降低与防止网络过拟合。

2. 学习除权重之外的联系

2.1 正则化

正则化对剪枝与重新练具有重要的影响。L1正则化会使得权重趋近于零，这个在重新训练之前与剪枝之后会获得较好的精度。然而，剩下的连接没有L2正则化那么好，导致再训练后准确率下降。总的来说，L2正则化回来带更好的剪枝结果。

2.2 Dropout

Dropout被用来防止网络过拟合，但是随着剪枝的进行网络变得稀疏，使用原有的drop_rate便变得不合适。由于Dropout是随机使得一部分神经元失活，而pruning是永久删除链接。因而，drop_rate需要根据根据剪枝之后网络的情况进行改变。
剪枝之前的网络链接为 $C_{i}$ ，剪枝之后的为 $C_{ir}$ 。其中 $C_{i}$ 的定义为
$C_{i}=N_{i}N_{i-1}$
其中， $N$ 是层神经元的个数，对应的drop_rate变化应该遵循如下规则
$D_{r}=D_{0}\sqrt{\frac{C_{ir}}{C_{i}}}$

2.3 局部剪枝与参数协同适应

论文中指出模型的retrain是在剪枝之后的模型上做的，其实叫finetune，也就是保留剪枝之前的网络中的部分参数，并在此基础上继续进行训练。
这里写图片描述
但是随着网络的加深，网络中会存在梯度消失的问题，论文中指出，在retrain的时候固定前面卷积层的参数，只是训练全连接层的参数。

2.4 迭代剪枝

使用训练的模型进行剪枝，在进行retrain，之后又回到pruning，这称之为一次迭代。整个剪枝是迭代进行的，需要通过几次迭代才能达到最小的网络结构。

3. 结果

这里写图片描述

猜你喜欢

开源EDR(OSSEC)基础篇- 01 -设计定位与能力输出
CSS3 二级菜单
如何在ubuntu14.04上安装轻量级的Budgie桌面(v8)
Three 之 three.js （webgl）GLSL-Card 中文手册(基础知识)
《大型网站服务器容量规划》——2.4　容量管理的目标与收益
【BZOJ5102】[POI2018]Prawnicy 堆
（0.2.1）mysql数据库环境-操作系统配置
Word控件Spire.Doc 【Table】教程(17)：如何在 C#、VB.NET 中删除 Word 表格中的行和列
总结:修改相关postgres用户密码
比特币与区块链
Andrew Ng机器学习公开课笔记 -- Mixtures of Gaussians and the EM algorithm
uni app map 地图漂浮问题及方案
python 集合
基于移动网络通讯行为的风险用户识别【100010597】
苹果在Iphone6s的WiFi上使用了什么黑科技？
数据科学必备相关性分析的三种操作和可视化详解
怎样用微信编辑器排版出美观的图文消息
《像计算机科学家一样思考Python》——3.15　术语表
【2016 ACM/ICPC Asia Regional Qingdao Online】
Google Earth Engine（GEE）——月度降水和ndvi植被覆盖度相关性分析（墨西哥为例）
搭建企业内部Discuz网页论坛，并内网穿透实现公网访问
InverseProperty attribute in C#
YARN设计思路
Partitioner分区过程分析

相关主题

写论文的笔记
论文阅读笔记
笔记笔记笔记
论文笔记
论文3
笔记笔记
论文即思路
AI~N篇论文1
U-Net论文笔记

zl程序教程