您现在的位置是：首页 > 硬件

当前栏目

机器学习笔记之玻尔兹曼机(三)基于平均场理论变分推断的梯度求解(续)

机器笔记学习基于理论求解梯度平均

2023-09-11 14:15:53 时间

机器学习笔记之玻尔兹曼机——基于平均场推断梯度求解[续]

引言
- $\Lambda_3$ 梯度求解
- 求解最优参数 $\hat {\phi}_j$

引言

基于玻尔兹曼机(三)梯度求解(基于平均场理论的变分推断)的思路继续求解 $\Lambda_3$ 的梯度。

$\Lambda_3$ 梯度求解

对 $\Lambda_3$ 进行化简。其就是一个熵的形式：
$\Lambda_3 = - \sum_{h^{(i)}} \mathcal Q(h^{(i)} \mid v^{(i)};\phi) \log \mathcal Q(h^{(i)} \mid v^{(i)};\phi)$
由于平均场假设作为条件，将上式进行展开：
这里暂时先将负号带回去了~
$\begin{aligned} \Lambda_3 & = \sum_{h^{(i)}} \left\{\prod_{j=1}^{\mathcal P} \mathcal Q(h_j^{(i)} \mid v^{(i)};\phi) \log \prod_{j=1}^{\mathcal P} \left[\frac{1}{\mathcal Q(h_j^{(i)} \mid v^{(i)};\phi)}\right]\right\} \\ & = \sum_{h^{(i)}} \left\{\prod_{j=1}^{\mathcal P} \mathcal Q(h_j^{(i)} \mid v^{(i)};\phi) \sum_{j=1}^{\mathcal P}\log \left[\frac{1}{\mathcal Q(h_j^{(i)} \mid v^{(i)};\phi)}\right]\right\} \end{aligned}$
继续将 $\sum_{h^{(i)}} = \sum_{h_1^{(i)},h_2^{(i)},\cdots,h_{\mathcal P}^{(i)}}$ 展开，并与相关项进行归纳：
$\Lambda_3 = \sum_{j=1}^{\mathcal P} \sum_{h_j^{(i)}} \mathcal Q(h_j^{(i)} \mid v^{(i)};\phi) \cdot \log \left[\frac{1}{\mathcal Q(h_j^{(i)} \mid v^{(i)};\phi)}\right]$
继续观察 $\sum_{h_j^{(i)}} \mathcal Q(h_j^{(i)} \mid v^{(i)};\phi) \cdot \log \left[\frac{1}{\mathcal Q(h_j^{(i)} \mid v^{(i)};\phi)}\right]$ ，基于 $h_j^{(i)}$ 的伯努利分布，该式可表示为如下形式：
$\begin{aligned} & \quad \mathcal Q(h_j^{(i)}=1 \mid v^{(i)};\phi) \cdot log \left[\frac{1}{\mathcal Q(h_j^{(i)}=1 \mid v^{(i)};\phi)}\right] + \mathcal Q(h_j^{(i)}=0 \mid v^{(i)};\phi) \cdot log \left[\frac{1}{\mathcal Q(h_j^{(i)}=0 \mid v^{(i)};\phi)}\right] \\ & = \phi_j \cdot \log \left[\frac{1}{\phi_j}\right] + (1 - \phi_j) \log \left[\frac{1}{1 - \phi_j}\right] \end{aligned}$
至此， $\Lambda_3$ 可表示为：
$\Lambda_3 = \sum_{j=1}^{\mathcal P}\left\{\phi_j \cdot \log \left[\frac{1}{\phi_j}\right] + (1 - \phi_j) \log \left[\frac{1}{1 - \phi_j}\right]\right\}$

求解最优参数 $\hat {\phi}_j$

至此， $\Lambda_1,\Lambda_2,\Lambda_3$ 全部化简完毕，将这三项分别对 $\phi_j$ 求偏导。具体结果如下：
$\begin{cases} \frac{\partial}{\partial \phi_j} \left[\sum_{i=1}^{\mathcal D}\sum_{l=1}^{\mathcal P} \phi_l \cdot v_i^{(i)} \cdot \mathcal W_{il}\right] = \sum_{i=1}^{\mathcal D} v_i^{(i)} \cdot \mathcal W_{ij} \\ \frac{\partial}{\partial \phi_j} \left[\sum_{j=1}^{\mathcal P}\sum_{l\neq j}^{\mathcal P} \phi_i \cdot \phi_l \cdot \mathcal J_{il}\right] = \sum_{l \neq j}^{\mathcal P} \phi_l \cdot \mathcal J_{il} \\ \frac{\partial}{\partial \phi_j} [\sum_{j=1}^{\mathcal P}\left\{\phi_j \cdot \log \left[\frac{1}{\phi_j}\right] + (1 - \phi_j) \log \left[\frac{1}{1 - \phi_j}\right]\right\}] = -\log \frac{\phi_j}{1 - \phi_j} \end{cases}$
令三项之和为0，求解 $\phi_j$ ：
$\frac{\partial}{\partial \phi_j} [\Lambda_1 + \Lambda_2 + \Lambda_3] \triangleq 0 \Leftrightarrow \sum_{i=1}^{\mathcal D} v_i^{(i)} \cdot \mathcal W_{ij} + \sum_{l \neq j}^{\mathcal P} \phi_l \cdot \mathcal J_{il} - \log \frac{\phi_j}{1 - \phi_j} = 0$
因而有：
$\phi_j \left[1 + \exp \left(\sum_{i=1}^{\mathcal D} v_i^{(i)} \cdot \mathcal W_{ij} + \sum_{l \neq j}^{\mathcal P} \phi_l \cdot \mathcal J_{il}\right)\right] = \exp \left(\sum_{i=1}^{\mathcal D} v_i^{(i)} \cdot \mathcal W_{ij} + \sum_{l \neq j}^{\mathcal P} \phi_l \cdot \mathcal J_{il}\right) \\ \begin{aligned} \Rightarrow \phi_j & = \frac{1}{1 + \exp \left(\sum_{i=1}^{\mathcal D} v_i^{(i)} \cdot \mathcal W_{ij} + \sum_{l \neq j}^{\mathcal P} \phi_l \cdot \mathcal J_{il}\right)} \\ & = \text{Sigmoid} \left[\sum_{i=1}^{\mathcal D} v_i^{(i)} \cdot \mathcal W_{ij} + \sum_{l \neq j}^{\mathcal P} \phi_l \cdot \mathcal J_{il}\right] \end{aligned}$
很明显，这是一个迭代方程——用非 $\phi_j$ 的其他结果的线性运算 $\sum_{l \neq j}^{\mathcal P}$ 对 $\phi_j$ 进行表示。并且它是一个不动点方程。它的具体求解方式是：在初始状态下给定随机结果，固定住 $\phi_j$ 之外的其他项，求解当前迭代步骤下 $\phi_j$ 的最优解；以此类推，直到所有的 $\phi_{j}(j=1,2,\cdots,\mathcal P)$ 均固定一遍，此时一次迭代结束，继续迭代下去，基于不动点方程的性质， $\phi_j(j=1,2,\cdots,\mathcal P)$ 均会收敛至某一结果，至此 $\phi = \{\phi_1,\phi_2,\cdots,\phi_{\mathcal P}\}$ 可以被近似出来，最终求解 $\mathcal Q(h^{(i)} \mid v^{(i)};\phi)$ 的分布结果，并最终替代 $\mathcal P_{model}(h^{(i)} \mid v^{(i)};\theta)$ 对模型参数的梯度进行描述。
这实际上就是‘坐标上升思想’。

返回要求解的模型参数梯度：
$\begin{cases} \nabla_{\mathcal W} = \eta \left(\mathbb E_{\mathcal P_{data}} \left[v^{(i)}(h^{(i)})^T\right] - \mathbb E_{\mathcal P_{model}} \left[v^{(i)}(h^{(i)})^T\right]\right)\\ \mathcal P_{data} \Rightarrow \mathcal P_{data}(v^{(i)} \in \mathcal V) \cdot \mathcal P_{model}(h^{(i)} \mid v^{(i)}) \\ \mathcal P_{model} = \mathcal P_{model}(v^{(i)},h^{(i)}) \end{cases}$
此时关于隐变量的后验概率 $\mathcal P_{model}$ 并不需要使用MCMC采样方法进行求解，通过变分推断的方式也可以进行求解。
关于负相的处理方式，依然需要使用采样方法，随着技术的迭代，采样方式也得到了更新，例如对比散度方法，同样可以加快采样速度。

至此，关于玻尔兹曼机的介绍到此结束。

相关参考：
(系列二十八)玻尔兹曼机7-平均场推断3

猜你喜欢

Word控件Spire.Doc 【文档操作】教程(七)：在 C#、VB.NET 中从 URL 下载 Word 文档
IOS中通知中心(NSNotificationCenter)的使用总结
Github remote: error: File .vscode/.browse.c_cpp.db exceeds GitHub's file size of 100.00 MB问题的解决
提升正则读写效率，超好用的正则图解工具Regulex与在线调试工具regexr
Linux下安装Nginx服务器
什么是物联网?如何保护物联网iot安全性
【DDD/CQRS/微服务架构案例】在Ubuntu 14.04.4 LTS中运行WeText项目的服务端
App Store审核被拒问题及其解决方案记录
Spring 常用注解
项目属性-->生成事件-->后期生成事件命令行
1031 Hello World for U
《惢客创业日记》2020.01.07（周二）从“贩卖焦虑”到“贩卖初心”（三）
mysql中的事务

相关主题

机器学习资源
机器学习笔记
Python机器学习库
机器学习-随机森林
[机器学习] 集成学习
机器学习笔记（一）
机器学习和统计学习
机器学习 | 交叉验证
机器学习_knn算法_1
机器学习之深度学习
机器学习-逻辑回归
机器学习-归一化
机器学习与R语言
笔记笔记笔记
机器学习介绍
笔记笔记
机器数
机器学习汇总

zl程序教程

当前栏目

机器学习笔记之玻尔兹曼机(三)基于平均场理论变分推断的梯度求解(续)

机器学习笔记之玻尔兹曼机——基于平均场推断梯度求解[续]

引言

$\Lambda_3$ 梯度求解

求解最优参数 $\hat {\phi}_j$

相关文章

当前栏目

机器学习笔记之玻尔兹曼机(三)基于平均场理论变分推断的梯度求解(续)

机器学习笔记之玻尔兹曼机——基于平均场推断梯度求解[续]

引言

Λ 3 \Lambda_3 Λ3​梯度求解

求解最优参数 ϕ ^ j \hat {\phi}_j ϕ^​j​

相关文章

$\Lambda_3$ 梯度求解

求解最优参数 $\hat {\phi}_j$