您现在的位置是：首页 > 云平台

当前栏目

深度学习网络大杀器之Dropout——深入解析Dropout

网络学习解析深入深度 dropout

2023-09-11 14:19:45 时间

首发地址：https://yq.aliyun.com/articles/68901

更多深度文章，请关注云计算频道：https://yq.aliyun.com/cloud

过拟合是深度神经网（DNN）中的一个常见问题：模型只学会在训练集上分类，这些年提出的许多过拟合问题的解决方案；其中dropout具有简单性并取得良好的结果：

Dropout

7e31586d15d887ae0901452e2e1b1c6cb94f882e

上图为Dropout的可视化表示，左边是应用Dropout之前的网络，右边是应用了Dropout的同一个网络。

Dropout的思想是训练整体DNN，并平均整个集合的结果，而不是训练单个DNN。DNNs是以概率P舍弃部分神经元，其它神经元以概率q=1-p被保留，舍去的神经元的输出都被设置为零。

引述作者：

在标准神经网络中，每个参数的导数告诉其应该如何改变，以致损失函数最后被减少。因此神经元元可以通过这种方式修正其他单元的错误。但这可能导致复杂的协调，反过来导致过拟合，因为这些协调没有推广到未知数据。Dropout通过使其他隐藏单元存在不可靠性来防止共拟合。

简而言之：Dropout在实践中能很好工作是因为其在训练阶段阻止神经元的共适应。

Dropout如何工作

Dropout以概率p舍弃神经元并让其它神经元以概率q=1-p保留。每个神经元被关闭的概率是相同的。这意味着：

假设：

h(x)=xW+b，di维的输入x在dh维输出空间上的线性投影；

a(h)是激活函数

在训练阶段中，将假设的投影作为修改的激活函数：

650f8f00ffeb3ef346a61ee248670abe173c4acb

其中D=(X1,...,Xdh)是dh维的伯努利变量Xi，伯努利随机变量具有以下概率质量分布：

32363b313f65d3bf4231c5c57eace39d6fb7cb2c

其中k是可能的输出。

将Dropout应用在第i个神经元上：

8899c12575bca1550dfd8127fd7eb0a2912a8f2a

其中P(Xi=0)=p

由于在训练阶段神经元保持q概率，在测试阶段必须仿真出在训练阶段使用的网络集的行为。

为此，作者建议通过系数q来缩放激活函数：

训练阶段： fdb59b52bfa583cf08eaf7980e26e8fad453d148

测试阶段： d6a2b220ee68540890eaf0dc537188c738600fb7

Inverted Dropout

与dropout稍微不同。该方法在训练阶段期间对激活值进行缩放，而测试阶段保持不变。

倒数Dropout的比例因子为 223ab9380c566fb9a74ff8a0a127e1174593bdf8 ，因此：

训练阶段： 6ebd718f4256f50134f7428bc5df4d3cc9ddceae

测试阶段： 6ccbf2b63a56155b6403093e8771952bb3e3515b

Inverted Dropout是Dropout在各种深度学习框架实践中实现的，因为它有助于一次性定义模型，并只需更改参数（保持/舍弃概率）就可以在同一模型上运行训练和测试过程。

一组神经元的Dropout

n个神经元的第h层在每个训练步骤中可以被看作是n个伯努利实验的集合，每个成功的概率等于p。

因此舍弃部分神经元后h层的输出等于：

f580cf9006a568171c48ac7ec10f1d8997bf7d81

因为每一个神经元建模为伯努利随机变量，且所有这些随机变量是独立同分布的，舍去神经元的总数也是随机变量，称为二项式：

023627f0453afe34e4bebb9ee10dfb7678d87989

n次尝试中有k次成功的概率由概率质量分布给出：

55460b3bb5d23fc5fbc732366679150a56a67fec

当使用dropout时，定义了一个固定的舍去概率p，对于选定的层，成比例数量的神经元被舍弃。

3be3ad14ec1d82ebafe981d1d3fc40ef6132e020

从上图可以看出，无论p值是多少，舍去的平均神经元数量均衡为np：

933a160e2ead33c8ea51c1c7d41a69d3bb369eda

此外可以注意到，围绕在p = 0.5值附近的分布是对称。

Dropout与其它正则化

Dropout通常使用L2归一化以及其他参数约束技术。正则化有助于保持较小的模型参数值。

L2归一化是损失的附加项，其中λ是一种超参数、F(W;x)是模型以及ε是真值y与和预测值y^之间的误差函数。

e596c69e772f833df283a96e806dde994d8b979d

通过梯度下降进行反向传播，减少了更新数量。

a762ce896975e697de82661ee4e69a11f6e92fad

Inverted Dropout和其他正则化

由于Dropout不会阻止参数增长和彼此压制，应用L2正则化可以起到作用。

明确缩放因子后，上述等式变为：

337e71fd721fded5b9298cad73ba6c3310057d6c

可以看出使用Inverted Dropout，学习率是由因子q进行缩放。由于q在[0,1]之间，η和q之间的比例变化：

71cf583c223c9f4e2d7a3021640ae747b9f5dacd

将q称为推动因素，因为其能增强学习速率，将r(q)称为有效的学习速率。

有效学习速率相对于所选的学习速率而言更高：基于此约束参数值的规一化可以帮助简化学习速率选择过程。

总结

1 Dropout存在两个版本：直接（不常用）和反转

2 单个神经元上的dropout可以使用伯努利随机变量建模

3 可以使用二项式随机变量来对一组神经元上的舍弃进行建模

4 即使舍弃神经元恰巧为np的概率是低的，但平均上np个神经元被舍弃。

5 Inverted Dropout提高学习率

6 Inverted Dropout应该与限制参数值的其他归一化技术一起使用，以便简化学习速率选择过程

7 Dropout有助于防止深层神经网络中的过度拟合

作者介绍：Paolo Galeone，计算机工程师以及深度学习研究者，专注于计算机视觉问题的研究

bafcc5518a0f203dc66a08af1dd9a6ce1e386173

Blog：https://pgaleone.eu/

Linkedin：https://it.linkedin.com/in/paolo-galeone-6782b311b

Twitter：https://twitter.com/paolo_galeone

以上为译文

本文由北邮@爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。

文章原标题《Analysis of Dropout》，作者：Paolo Galeone，译者：海棠，审校：我是主题曲哥哥。

文章为简译，更为详细的内容，请查看原文

翻译者：海棠

Wechat：269970760 weibo：Uncle_LLD

Email:duanzhch@tju.edu.cn

微信公众号：AI科技时讯

157f33dddfc596ede3681e0a2a0e7068dc288cc1

# 【深度学习】：《PyTorch入门到项目实战》第九天:Dropout实现上一章我们介绍了L2正则化和权重衰退，在深度学习中，还有一个很实用的方法——Dropout，能够减少过拟合问题。之前我们介绍了我们的目的是要训练一种泛化的模型，那么就要求模型的鲁棒性较强。一个还不错的尝试是在训练神经网络时，让模型的结果不那么依赖某个神经元，因此在训练神经网络过程中，我们每次迭代将隐藏层的一些神经元随机丢弃掉，这样就不会使得我们的模型太依赖某一个神经元，从而使得我们的模型在未知的数据集上或许会有更好的泛化能力。下面我们具体来看dropout的原理。
深度学习入门基础CNN系列——批归一化（Batch Normalization）和丢弃法（dropout）批归一化方法（Batch Normalization，BatchNorm）是由Ioffe和Szegedy于2015年提出的，已被广泛应用在深度学习中，其目的是对神经网络中间层的输出进行标准化处理，使得中间层的输出更加稳定。丢弃法（Dropout）是深度学习中一种常用的抑制过拟合的方法，其做法是在神经网络学习过程中，随机删除一部分神经元。训练时，随机选出一部分神经元，将其输出设置为0，这些神经元将不对外传递信号。

猜你喜欢

iOS swift block防止循环引用
C++面试题（四）——智能指针的原理和实现
❷【DepthAI API】Warp 节点使用说明【OAK深度相机】
Go gin使用html模板
shell 之 cut 命令
[React] Use React ref to Get a Reference to Specific Components
SQLSERVER存储过程语法详解
通过指令创建有序数组
远程控制篇：在DELPHI程序中拨号上网
自动化测试技术分享 | 敏捷开发、瀑布与迭代模型的项目应用分析
paddlepaddle 29 无模型定义代码下动态修改网络结构(relu变prelu，conv2d变conv3d，2d语义分割模型改为3d语义分割模型)
远程服务调用PRC发展史

相关主题

Java-网络编程
网络编程（32）
机器学习和统计学习
LA 3902 网络
Linux 网络操作

zl程序教程

当前栏目

深度学习网络大杀器之Dropout——深入解析Dropout

相关文章