从矩阵的谱半径到神经网络梯度消失
2023-04-18 15:20:43 时间
一、矩阵的范数
![](https://img2023.cnblogs.com/blog/1596082/202302/1596082-20230218220013612-242334134.png)
![](https://img2023.cnblogs.com/blog/1596082/202302/1596082-20230218220033378-1700518775.png)
![0](https://img2023.cnblogs.com/blog/1596082/202302/1596082-20230218215210391-1154354408.png)
![0](https://img2023.cnblogs.com/blog/1596082/202302/1596082-20230218215210391-526443196.png)
二、矩阵的谱半径
![0](https://img2023.cnblogs.com/blog/1596082/202302/1596082-20230218215210399-1529786411.png)
虽然,谱半径小于等于任意矩阵范数。
但是,也必存在一个算子范数,小于等于谱半径+一个小的正数
从线性方程组的迭代法的收敛性到矩阵的幂的收敛。
![0](https://img2023.cnblogs.com/blog/1596082/202302/1596082-20230218215210387-1581085125.png)
![0](https://img2023.cnblogs.com/blog/1596082/202302/1596082-20230218215210378-418431351.png)
![](https://img2023.cnblogs.com/blog/1596082/202302/1596082-20230218215812951-651287704.png)
![0](https://img2023.cnblogs.com/blog/1596082/202302/1596082-20230218215210331-1540997272.png)
![0](https://img2023.cnblogs.com/blog/1596082/202302/1596082-20230218215210329-783871959.png)
谱半径小于1,也必存在一个算子范数,小于1;
若矩阵的范数小于1, 当k趋于无穷时,矩阵任意范数的k次幂肯定趋近于0,这就使x(k)逼近其解。也就是说,矩阵的幂趋近于0矩阵。
三、深度神经网络的梯度消失
在训练深层的神经网络时,例如MLP或RNN,由于反向传播的链路过长,从而涉及到多次的矩阵的连乘(激活函数关于净输入的偏导数矩阵、当前层输入关于净输入的偏导数矩阵,可以视为一个矩阵)。
如果这个矩阵的谱半径小于一,那么随着反向传播的进行,回传的梯度信号衰减地越厉害,这使得越是网络浅层的参数地梯度越微弱,那么其越难得到很好地更新。
参考: 数值分析ppt
相关文章
- 【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
- CLB运维&运营最佳实践 ---访问日志大洞察
- vnc方式登陆服务器
- 轻松学排序算法:眼睛直观感受几种常用排序算法
- 十二个经典的大数据项目
- 为什么使用 CDN 内容分发网络?
- 大数据——大数据默认端口号列表
- Weld 1.1.5.Final,JSR-299 的框架
- JavaFX 2012:彻底开源
- 提升as3程序性能的十大要点
- 通过凸面几何学进行独立于边际的在线多类学习
- 利用行动影响的规律性和部分已知的模型进行离线强化学习
- ModelLight:基于模型的交通信号控制的元强化学习
- 浅谈Visual Source Safe项目分支
- 基于先验知识的递归卡尔曼滤波的代理人联合状态和输入估计
- 结合网络结构和非线性恢复来提高声誉评估的性能
- 最佳实践丨云开发CloudBase多环境管理实践
- TimeVAE:用于生成多变量时间序列的变异自动编码器
- 具有线性阈值激活的神经网络:结构和算法
- 内网渗透之横向移动 -- 从域外向域内进行密码喷洒攻击