您现在的位置是：首页 > 工具

当前栏目

深度学习：批归一化

学习深度归一化

2023-09-27 14:28:32 时间

批归一化

通过批归一化，可以让超参数的搜索变得简单一些。在施加了批归一化后，神经网络对于超参数的敏感度会降低，具有更强的鲁棒性。

批归一化将每层传输给激励函数的值都进行归一化，相当于把每层隐藏层都看作单独的神经网络，将输入数据进行归一化，降低了网络之间的耦合。

跟对输入数据的归一化相似，批量归一化做的工作也差不多，不过归一化的对象变成了神经网络中传入激活函数的值 $z^{[l](i)}$ ，简单来说就是我们求出
$\mu^{[l]}=\frac{1}{m}\sum_{i=1}^mz^{[l](i)}\\ \sigma^{2[l]}=\frac{1}{m}\sum_{i=1}^m(z^{[l](i)}-\mu^{[l]})^2$ 然后把 $z^{[l](i)}$ 化为均值为0，方差为1的数据：
$z^{[l](i)}_\text{norm}=\frac{z^{[l](i)}-\mu^{[l]}}{\sqrt{\sigma^{2[l]}+\varepsilon}}$
不过有些时候，我们希望自己定义 $z^{[l](i)}$ 的均值与方差，可以通过两个参数 $\gamma$ 与 $\beta$ （又是 $\beta$ ）来控制，即令
$\tilde{z}^{[l](i)}=\gamma^{[l]} z^{[l](i)}_\text{norm}+\beta^{[l]}$ 来将 $z^{[l](i)}$ 调整到需要的分布。

其中 $\gamma^{[l]}$ 和 $\beta^{[l]}$ 不需要手动设置，它们可以作为普通参数在收敛过程中直接学习。同时，因为在归一化的时候，所有 $z^{[l](i)}$ 的平均值都会被调整为0，所以参数 $b^{[l]}$ 就不需要了，我们只保留 $W^{[l]},\gamma^{[l]}$ 与 $\beta^{[l]}$ 。

所以，在向前传播时，我们的计算过程为
$\begin{aligned} &Z^{[l]}=W^{[l]}A^{[l-1]}\\ &\mu^{[l]}=\frac{1}{m}np.sum(Z^{[l]},axis=1,keepdims=True)\\ &\sigma^2=\frac{1}{m}np.sum((Z^{[l]}-\mu^{[l]})^2,axis=1,keepdims=True)\\ &Z^{[l]}_\text{norm}=\frac{Z^{[l]}-\mu^{[l]}}{\sqrt{\sigma^{2[l]}+\varepsilon}}\\ &\tilde{Z}^{[l]}=\gamma^{[l]}*Z^{[l]}_\text{norm}+\beta^{[l]}\\ &A^{[l]}=g^{[l]}(\tilde{Z}^{[l]}) \end{aligned}$
向后传播计算过程为
$\begin{aligned} &d\tilde{Z}^{[l]}=dA^{[l]}*g^{[l]'}(\tilde{Z}^{[l]})\\ &dZ^{[l]}_\text{norm}=d\tilde{Z}^{[l]}*\gamma^{[l]} \\ &d\beta^{[l]}=\frac{1}{m}np.sum(d\tilde{Z}^{[l]},axis=1,keepdims=True)\\ &d\gamma^{[l]}=\frac{1}{m}np.sum(d\tilde{Z}^{[l]}*Z^{[l]}_\text{norm},axis=1,keepdims=True)\\ &d\sigma^{2[l]}=\frac{1}{m}np.sum(dZ^{[l]}_\text{norm}*(Z^{[l]}-\mu^{[l]})(\frac{-(\sigma^{2[l]}+\varepsilon)^{-\frac{3}{2}}}{2}),axis=1,keepdims=True) \\ &d\mu^{[l]}=\frac{1}{m}np.sum(dZ^{[l]}_\text{norm}*\frac{-1}{\sqrt{\sigma^{2[l]}+\varepsilon}},axis=1,keepdims=True)+d\sigma^{2[l]}\frac{1}{m}np.sum(-2(Z^{[l]}-\mu^{[l]}),axis=1,keepdims=True) \\ &dZ^{[l]}=\frac{1}{\sqrt{\sigma^{2[l]}+\varepsilon}}*dZ^{[l]}_\text{norm}+\frac{2(Z^{[l]}-\mu^{[l]})}{m}*d\sigma^{2[l]}+\frac{1}{m}d\mu^{[l]} \\ &dW^{[l]}=\frac{1}{m}dZ^{[l]}A^{[l-1]T}\\ \end{aligned}$

测试时，因为可能只有单组数据，我们无法直接求出 $\mu$ 和 $\sigma^2$ 。因此在测试集中使用BN算法时，我们会利用训练集里的 $\mu$ 和 $\sigma^2$ 的指数加权平均来作为估计值对测试数据进行批归一化。一般使用的深度学习框架还会提供类似的工具来估算均值和方差，事实上只要是合理的估算，BN算法在测试集上的鲁棒性是很强的。

猜你喜欢

【 java 面向对象】面向对象之对象数组
java.lang.reflect.Method.getAnnotation()方法示例【通过反射获取到方法对象再获取方法对象上的注解信息】
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date]
cocos2dx基础篇(9) 滑块控件CCControlSlider
php操作mysql
Android开发技术总结！一次关于JVM的面试经历，完整版开放下载
Android Studio上使用可视化调试工具Hierarchy Viewer
dotnet 5 让 WPF 调用 WindowsRuntime 方法
Vue2.0与1.0的区别
设计前沿：16个优秀的国外单页网站制作案例
PHP完整的AES加解密算法使用及例子（256位）
各式各样的产品，哈哈
mysql数据库对时间进行默认的设置
setInterval与setTimeout
即使不会node.js，拖拽就可完成数据的可视化展示
oracle 查询重复纪录
让intellij挂在异常处，特别是出现null pointer的地方
GDI+绘制简单图形
【奇异值】物理含义
Flume
【UML建模】（7） UML建模之部署图
获取数据库表结构信息（表名称和字段名称等元数据）

相关主题

JQuery学习(3)
深度学习基础
强化学习笔记
移动端学习
Ansible学习笔记

zl程序教程

当前栏目

深度学习：批归一化

批归一化

相关文章