您现在的位置是：首页 > 硬件

当前栏目

机器学习笔记之受限玻尔兹曼机(四)推断任务——边缘概率

机器边缘笔记学习任务概率推断受限

2023-09-11 14:15:53 时间

机器学习笔记之受限玻尔兹曼机——推断任务[边缘概率]

引言

引言

上一节介绍了受限玻尔兹曼机中随机变量节点的后验概率，本节将介绍随机变量结点的边缘概率。

回顾：场景构建

已知受限玻尔兹曼机示例表示如下：
受限玻尔兹曼机——示例
将随机变量集合 $\mathcal X \in \mathbb R^p$ 分成观测变量 $v$ 和隐变量 $h$ 两个部分：
$\mathcal X = (x_1,x_2,\cdots,x_p)^T = \begin{pmatrix} h \\ v \end{pmatrix}_{p \times 1} \quad \begin{cases} h = (h_1,h_2,\cdots,h_m)_{m \times 1}^T \\ v = (v_1,v_2,\cdots,v_n)_{n \times 1}^T \end{cases} \quad m + n = p$
并且观测变量 $v$ 、隐变量 $h$ 中的每一个随机变量均服从伯努利分布：
$\begin{aligned} h_j(j=1,2,\cdots,m) \in \{0,1\} \\ v_i (i=1,2,\cdots,n) \in \{0,1\} \end{aligned}$
基于该模型，随机变量集合 $\mathcal X$ 的联合概率分布表示如下：
$\begin{aligned} \mathcal P(\mathcal X) = \mathcal P(v,h) & = \frac{1}{\mathcal Z} \exp \{- \mathbb E(h,v)\} \\ & = \frac{1}{\mathcal Z} \exp \left(v^T\mathcal W h + b^Tv + c^Th\right) \\ & = \frac{1}{\mathcal Z} \exp \left[\sum_{j=1}^m\sum_{i=1}^n v_i \cdot w_{ij} \cdot h_j + \sum_{i=1}^n b_i v_i + \sum_{j=1}^m c_j h_j\right] \end{aligned}$

推断任务——边缘概率求解

在受限玻尔兹曼机中，仅对观测变量 $v$ 的边缘概率分布进行求解。边缘概率 $\mathcal P(v)$ 本质上就是对联合概率分布关于隐变量 $h$ 的积分操作：
$\mathcal P(v) = \sum_{h}\mathcal P(v,h)$
由于模型已知，即模型参数 $\mathcal W,b,c$ 是已知的。将上式沿 $\mathcal P(v,h)$ 展开：
再写一遍~
化简目标是：将 $\mathcal P(v,h)$ 中关于隐变量 $h$ 中的项积分掉，使其变为‘仅包含观测变量’ $v$ 的式子。
$\begin{aligned} \mathcal P(v) & = \sum_{h} \left[\frac{1}{\mathcal Z} \exp \left(\sum_{j=1}^m\sum_{i=1}^n v_i \cdot w_{ij} \cdot h_j + \sum_{i=1}^n b_i v_i + \sum_{j=1}^m c_j h_j\right)\right] \\ & = \sum_{h_1},\cdots \sum_{h_m}\left[\frac{1}{\mathcal Z} \exp \left(\sum_{j=1}^m\sum_{i=1}^n v_i \cdot w_{ij} \cdot h_j + \sum_{i=1}^n b_i v_i + \sum_{j=1}^m c_j h_j\right)\right] \\ \end{aligned}$
观察上述中括号内的项，其中 $\frac{1}{\mathcal Z},\sum_{i=1}^n b_iv_i$ 与随机变量 $h_j(j=1,2,\cdots,m)$ 无关；因而将它们提到公式前端：
为了方便观看，将 $v_i(i=1,2,\cdots,n)$ 的部分进行合并
$\begin{aligned} \mathcal P(v) & = \frac{1}{\mathcal Z} \exp (b^Tv) \cdot \sum_{h_1},\cdots,\sum_{h_m} \exp\left\{\sum_{j=1}^m \left[(h_j \mathcal W_j)^T v + c_jh_j\right]\right\} \\ & = \frac{1}{\mathcal Z} \exp (b^Tv) \cdot \sum_{h_1},\cdots,\sum_{h_m} \exp\left\{[(h_1\mathcal W_1)^Tv + c_1h_1] + \cdots + (h_m\mathcal W_m + c_mh_m)^Tv\right\} \end{aligned}$
以大括号第一项为例： $(h_1\mathcal W_1)^Tv + c_1h_1$ 中只和隐变量 $h_1$ 相关，与其他隐变量无关。因此，上式可改写为：
$\mathcal P(v) = \frac{1}{\mathcal Z} \exp (b^Tv) \cdot \left \{\sum_{h_1} \exp [(h_1\mathcal W_1)^Tv + c_1h_1]\right\} \cdots \left \{\sum_{h_m} \exp [(h_m\mathcal W_m)^Tv + c_mh_m]\right\}$
由于 $h_j(j=1,2,\cdots,m) \in \{0,1\}$ ，因此上式每个大括号中的项可继续展开，表示为如下形式。这里以第一项为例：
$\begin{aligned} \sum_{h_1} \exp [(h_1\mathcal W_1)^Tv + c_1h_1] & = \sum_{h_1 \in \{0,1\}}\exp [(h_1\mathcal W_1)^Tv + c_1h_1] \\ & = \exp(0) + \exp(\mathcal W_1^Tv + c_1) \\ & = 1 + \exp(\mathcal W_1^Tv + c_1) \end{aligned}$
对上式继续化简：
对 $\exp(\mathcal W_j^Tv + c_j)$ 进行变形，将 $l o g$ 函数引入,从而使 $\exp,\log$ 相互抵消。
$\exp(\mathcal W_j^Tv + c_j) = \exp \left \{\log [1 + \exp(\mathcal W_j^Tv + c_j)]\right\} \quad j=1,2,\cdots,m$
因而原式 $\mathcal P(v)$ 有:
$\mathcal P(v) = \frac{1}{\mathcal Z} \exp (b^Tv) \cdot \prod_{j=1}^m \exp\left \{\log [1 + \exp(\mathcal W_j^Tv + c_j)]\right\}$
将 $e x p$ 提出来，最终有：
$\mathcal P(v) = \frac{1}{\mathcal Z} \exp \left\{b^Tv + \sum_{j=1}^m \log[1 + \exp(\mathcal W_j^T v + c_j)]\right\}$
观测变量 $v$ 的边缘概率分布即为所求。

边缘概率与Softplus函数

观察上式中的 $\log[1 + \exp(\mathcal W_j^T v + c_j)]$ 部分，它实际上就是softplus的表现形式：
$\text{Softplus}(x) = \log [1 + \exp(x)]$
$\text{Softplus}$ 函数图像表示如下：
Softplus-Sigmoid函数图像
Softplus也是一种激活函数，它可看做是ReLU函数的平滑效果，其值域为 $(0,\infty)$ (不含0)。并且不会像ReLU函数产生神经元挂掉情况。
并且更值得一提的属性是，Softplus函数的导数是Sigmoid函数：
$\begin{aligned}\frac{\partial \text{ Softplus}(x)}{\partial x} & = \frac{\exp(x)}{\exp(x) + 1} \\ & = \frac{1}{1 + \frac{1}{\exp (x)}} \\ & = \frac{1}{1 + \exp(-x)} \end{aligned}$

因而上述公式可最终化简为：
$\mathcal W_j$ 表示 $\mathcal W$ 矩阵第 $j$ 行的行向量。
$\mathcal P(v) = \frac{1}{\mathcal Z} \exp \{b^Tv + \sum_{j=1}^m \text{Softplus}(\mathcal W_j^T v + c_j)\}$

至此，受限玻尔兹曼机介绍结束(Learning问题的坑后续补)。下一节将介绍配分函数(Partition Function)。

猜你喜欢

JNDI连接数据库
【Bootstrap】bootstrap入门之栅格布局、弹性布局、组件类_02
Atitit 网关协议cgi wsgi fcgi fastcgi 目录 1.1. CGI(common gateway unterface)1 1.2. 2.1 WSGI:1 1.3. 2.3
https wireshark抓包——要解密出原始数据光有ssl 证书还不行，还要有浏览器内的pre-master-secret（内存里）
mongodb底层存储和索引原理——本质是文档数据库，无表设计，同时wiredTiger存储引擎支持文档级别的锁，MMAPv1引擎基于mmap，二级索引（二级是文档的存储位置信息『文件id + 文件内offset 』）
窗体中的滚动字幕
Afterlogic WebMail Pro PHP Crack
Knockout.Js官网学习（style绑定、attr绑定）
【二】2D测量 Metrology——get_metrology_object_fuzzy_param()算子
[Javascript] Replicate JavaScript Constructor Inheritance with Simple Objects (OLOO)
XP系统的共享，你究竟知道……
ART世界探险(7) - 数组
Python命令行参数大全
Hive（7）：Hive查询之分组查询
y3.第一章 Ceph企业级存储实战进阶 -- 部署Ceph集群(三)
前端案例：像素鸟小游戏（js+dom操作，完整代码，附案例素材）
开始java
一行代码, Java 怎样把List 转成 Map 的方法( Java 8 中的Stream API )

相关主题

python 机器学习
机器学习相关
机器学习简介
机器学习-Kmeans
机器学习实践
机器学习A
机器学习——感知机
机器学习-决策树
【机器学习】：入门
机器学习：线性回归
吴恩达机器学习I
[ML] 机器学习简介
机器学习中的数学
Python 7步机器学习
机器学习之统计学
笔记笔记笔记
入门机器学习
机器数
机器学习汇总

zl程序教程