全面整理:深度学习(ANN,CNN,RNN)和强化学习重要概念和公式
转载自:模型视角
原文:全面整理:深度学习(ANN,CNN,RNN)和强化学习重要概念和公式
01 神经网络
神经网络是一类用层构建的模型。常用的神经网络类型包括卷积神经网络和递归神经网络。
1.1 结构
关于神经网络架构的描述如下图所示:
记i 为网络的第i层,j 为一层中隐藏的第j 个单元,得到:
式中\omega,b,z 分别表示权重,偏移和输出。
1.2 激活函数
在隐含单元的末端使用激活函数向模型引入非线性复杂性。以下是最常见的几种:
1.3 交叉熵损失(Cross-entropy loss)
在神经网络中,交叉熵损失L(z,y) 是常用的,定义如下:
1.4 学习率(Learning rate)
学习率通常记作\eta ,表示在哪一步权重得到了更新。这个可以是固定的,也可以是自适应变化的。目前最流行的方法是 Adam,这是一种自适应学习率的方法。
1.5 反向传播(Backpropagation)
反向传播是一种通过考虑实际输出和期望输出更新神经网络权重的方法。权重\omega 的导数用链式法则计算(chain rule),它的形式如下:
因此权重更新如下:\omega \leftarrow \omega-\eta\frac{\partial L(z,y)}{\partial \omega}
1.6 更新权重
在神经网络中,权重的更新方式如下:
第一步:对训练数据取一批(batch);第二步:进行正向传播以获得相应的损失;第三步:反向传播损失,得到梯度;第四步:使用梯度更新网络的权重。
1.7 丢弃(Dropout)
它是一种通过在神经网络中删除单元来防止过度拟合训练数据的技术。实际应用中,单元被删除的概率是p ,或被保留的概率是1-p 。
02 卷积神经网络
2.1 卷积层需求
记W 为输入量大小,F 为卷积层神经元大小,P 为 zero padding 数量,那么匹配给定体积输入的神经元数量N 为:
2.2 批量正则化(Batch normalization)
这一步是超参数(hyperparameter) \gamma,\beta 正则化批量 \{x_i\} 。记 \mu_B,\sigma_B^2 分别为批量值的平均值和方差,正则化表示如下:
它通常用于完全连接或卷积层之后,且在非线性层之前。目的是允许更高的学习率,减少初始化的强依赖。
03 递归神经网络
3.1 门类型(Types of gates)
以下是在我们碰到的典型递归神经网络中存在的不同类型的门:
3.2 长短期记忆网络(LSTM, Long Short-Term Memory)
长短期记忆网络是RNN模型的一种,它通过添加“忘记”门来避免梯度消失问题。
04 强化学习与控制
强化学习的目标是让代理(agent)学会如何在环境中进化。
4.1 马尔科夫决策过程(Markov decision processes)
马尔科夫决策过程(MDP)是一个5元组(S,A,\{P_{sa}\},\gamma,R) ,其中:S 是一组状态。A 是一组行为。\{P_{sa}\} ,是s \in S 和a \in A 的状态转换概率。
\gamma \in[0,1] 是discount系数。R:S \times A \rightarrow \mathbb{R} 或者R:S\rightarrow\mathbb{R} 是算法要最大化的奖励函数。
4.2 策略(Policy)
策略\pi 是一个映射状态到行为的函数 \pi: S\rightarrow A 。
备注:我们说,如果给定一个状态s ,我们执行一个给定的策略p_i ,得到的行为是a=\pi(s) 。
4.3 价值函数(Value function)
对于给定的策略\pi和状态s ,我们定义价值函数如下V^* :
V^*=E[R(s_0)+\gamma R(s_1)+\gamma^2R(s_1)+...|s_0=s,\pi]
4.4 贝尔曼方程(Bellman equation)
最优贝尔曼方程描述了最优策略\pi^* 的价值函数V^{\pi^*} :
备注:对于给定的状态s ,我们记最优策略\pi^* 为:
4.5 价值迭代算法(Value iteration algorithm)
算法包含2步:
第一步,初始化价值:V_0(s)=0
第二步,基于之前的价值进行迭代:
4.6 最大似然估计(Maximum likelihood estimate)
状态转移概率的最大似然估计如下:P_{sa}(s')=\frac{状态s到s'行为a的次数}{状态s} 的行为次数
4.7 Q-learning
Q-learning是Q 一种无模型,公式如下:
相关文章
- 面试官,ThreadLocal 你要这么问,我就挂了
- 生产现场管理和改善的三步法
- 公司的这种打包启动方式,我简直惊呆了!
- 2022 年 12 月产品大事记 | FinClip 支持小程序小游戏
- “数智话”技术沙龙第四期 | 弹性MapReduce(EMR)专场,报名中!
- 强化学习&计算机视觉及图形图像技术 | 犀牛鸟精英人才计划课题宣讲会第二场
- SSL证书干货速递第一期:解放双手,自动续费!
- 太为难我了,阿里面试了7轮(5年经验,拿下P7岗offer)
- MTIC工业大脑,海量接入网关!
- 第一弹!华为设备命令最全大合集(2022新版)
- 从手工作业到工业革命!Nature文章:生物图像分析被深度学习彻底改变的五个领域
- 市场寒气逼人,英特尔顶不住了!或大幅裁员数千人,20%员工受影响
- 真·富可敌国!苹果公司光卖iPhone的收入就比乌克兰GDP还高
- 李飞飞两位高徒联合指导:能看懂「多模态提示」的机器人,zero-shot性能提升2.9倍
- 曝微软裁员近千人,涉 Xbox 等多个部门,被裁员工感叹「2022,真难」!
- 上班拍抖音需谨慎!Tiktok「科技网红」因自拍泄密被苹果解雇
- 大厂暴力裁员!马斯克放话Twitter先裁75%,Meta班车司机都丢饭碗了
- 「图像编辑」太卷了!谷歌最新论文发布仅6小时就被自己砸了场子
- Adobe发布PS 2020版!这样安装才能用!你要懂!
- 软件测试|Pycharm版本控制与分支管理