您现在的位置是：首页 > 硬件

当前栏目

机器学习笔记之指数族分布——最大熵角度观察指数族分布(二)最大熵定理与指数族分布的关系

机器笔记学习最大关系分布定理指数

2023-09-11 14:15:53 时间

机器学习笔记之指数族分布——最大熵原理与指数族分布的关系

引言

引言

上一节介绍了熵的基本概念以及最大熵思想，本节将介绍最大熵原理与指数族分布的关联关系。

回顾：最大熵思想示例

最大熵思想本质上是探究概率分布的一种工具，基于一个概率模型 $\mid \theta)$ ，如果其概率分布未知(没有任何约束概率分布的条件)、仅通过最大熵思想探究概率分布，发现满足熵最大的概率分布是均匀分布；
虽然没有任何约束条件，但是‘概率分布自身定义’还是要遵守的。
$\sum_{i=1}^k p(x^{(j)} = x_i) = 1(x^{(j)} \in \mathcal X)$
但实际情况可能是：概率分布依然是未知，但存在关于概率分布的约束条件。这意味着，不能使用最大熵思想对概率分布进行任意的摆布了。此时需要引入一个新的概念：最大熵原理。

最大熵原理

最大熵原理主要针对有约束条件概率分布进行求解。具体表述：在概率分布存在约束条件的情况下，满足约束条件下熵最大的分布就是求解的概率分布。

约束条件与经验概率分布

观察上面表述，什么叫做 概率分布存在约束条件？换句话说，这个约束条件是从哪里体现出来的？

我们在极大似然估计与最大后验概率估计中介绍过： $P(\mathcal X \mid \theta)$ 既可以看作概率分布，也可以看作概率模型 $P$ 以模型参数 $\theta$ 生成了大量样本,从而产生数据集合 $\mathcal X$ 。
模糊‘概率分布’与‘概率模型’之间的界限;
因此，概率分布的约束条件，或者说概率分布约束条件的表现形式自然是 一个个具体的样本。假设一个数据集合 $\mathcal X$ 包含 $N$ 个样本：
$\mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\}$

仅仅是有样本是不够的，如何将这些样本转换为约束概率分布的条件？引入一个概念：经验概率分布(Empirical probability distribution)。

经验概率分布是指特定事件发生的次数占总体实验样本的比率。经验概率分布的概率密度函数表示如下：
$\hat p(x^{(j)} = x_i) = \frac{count(x_i)}{N}(i=1,2,\cdots,k;x^{(j)} \in \mathcal X)$

其中 $x_i$ 表示样本的第 $i$ 个值， $count(x_i)$ 表示统计样本第 $i$ 个值出现的次数。
示例：数据集合 $\mathcal X_0$ 共包含6个样本：
$\mathcal X_0 = \{4,5,5,6,6,6\}$
上述集合共包含3种值：
$x_1 = 4,x_2 = 5,x_3 = 6$
则有如下的经验概率分布：
$\hat P(\mathcal X_0) = \begin{pmatrix} \hat p(x^{(j)} = x_1) \\ \hat p(x^{(j)} = x_2) \\ \hat p(x^{(j)} = x_3) \end{pmatrix} = \begin{pmatrix} \frac{1}{6} \\ \frac{1}{3} \\ \frac{1}{2} \end{pmatrix}= \begin{pmatrix} 0.16 \\ 0.33 \\ 0.5 \end{pmatrix}(x^{(j)} \in \mathcal X_0)$

这种概率分布最显著的特点是 该分布是单纯通过实际实验归纳得到，不掺杂理论取样。即计算概率分布使用的样本，均为真实样本。
在真实环境中，绝大多数情况都是通过有限样本进行归纳(经验分布)去逼近理想状态下的真实分布，弊端是‘经验分布’和‘真实分布’之间总是存在差距;优势在于简化运算，概率分布结果只和有限样本相关。

引入经验概率分布的背后意义在于概率分布完全取决于数据集合 $\mathcal X$ 。

经验概率分布本质上依然是概率分布，通过该概率分布可以求解期望、方差等 数字特征。定义 $\hat p(x^{(j)}=x_i)$ 为某样本 $x^{(j)}$ 等于某具体数值 $x_i$ 的概率密度函数：
$x^{(j)}$ 表示为数据集合 $\mathcal X$ 内的任意一个样本;

$\begin{aligned} \mathbb E_{\hat P(\mathcal X)}[\mathcal X] & = \sum_{x^{(j)} \in \mathcal X} \hat p(x^{(j)} = x_i) \cdot x^{(j)} \quad(i=1,2,\cdots,k) \\ Var_{\hat P(\mathcal X)}[\mathcal X] & = \mathbb E_{\hat P(\mathcal X)}[\mathcal X^2] - \left[\mathbb E_{\hat P(\mathcal X)}[\mathcal X]\right]^2 \end{aligned}$

为了让数字特征更具备泛化性：

假设 $f(x^{(j)}=x_i)$ 是关于样本 $x^{(j)}$ 值的任意函数，上述数字特征改写为：
$\begin{aligned} \mathbb E_{\hat p(\mathcal X)}[f(\mathcal X)] & = \sum_{x^{(j)} \in \mathcal X}\hat p(x^{(j)} = x_i) \cdot f(x^{(j)} = x_i) \\ & = \sum_{j=1}^N \hat p(x^{(j)} = x_i) \cdot f(x^{(j)}= x_i) \end{aligned}$
对 $f(x^{(j)}=x_i)$ 进行深层设定：将 $f(x^{(j)}=x_i)$ 定义为关于 $x^{(j)}$ 的一个 $\mathcal Q$ 维函数向量。因此， $f(x^{(j)}=x_i)$ 存在如下表达形式：
需要注意的点：它是函数向量维度，而不是样本维度;
$f(x^{(j)}=x_i) = \begin{pmatrix} f_1(x^{(j)}=x_i) \\ f_2(x^{(j)}=x_i) \\ \vdots \\ f_{\mathcal Q}(x^{(j)}=x_i) \\ \end{pmatrix}$

由于 $f (x)$ 函数是自定义的，是已知的；概率分布 $\hat P(\mathcal X)$ 是通过样本计算得到，是已知的；因此， $\mathbb E_{\hat P(\mathcal X)}[f(\mathcal X)]$ 结果也是已知信息。假设该已知信息的结果为 $\Omega$ ，则有：
$\mathbb E_{\hat P(\mathcal X)}[f(\mathcal X)] = \Omega$

由于 $f(x^{(j)})$ 被定义为 $\mathcal Q$ 维向量。因此， $\mathbb E_{\hat P(\mathcal X)}[f(\mathcal X)]$ 可以进行如下表示：
$\mathbb E_{\hat P(\mathcal X)}[f(\mathcal X)] = \begin{pmatrix} \mathbb E_{\hat P(\mathcal X)}[f_1(\mathcal X)] \\ \mathbb E_{\hat P(\mathcal X)}[f_2(\mathcal X)] \\ \vdots \\ \mathbb E_{\hat P(\mathcal X)}[f_{\mathcal Q}(\mathcal X)] \\ \end{pmatrix} = \begin{pmatrix} \sum_{j=1}^N \hat p(x^{(j)} = x_i) \cdot f_1(x^{(j)}=x_i) \\ \sum_{j=1}^N \hat p(x^{(j)} = x_i) \cdot f_2(x^{(j)}=x_i) \\ \vdots \\ \sum_{j=1}^N \hat p(x^{(j)} = x_i) \cdot f_{\mathcal Q}(x^{(j)}=x_i) \\ \end{pmatrix} = \begin{pmatrix} \Omega_1 \\ \Omega_2 \\ \vdots \\ \Omega_{\mathcal Q} \\ \end{pmatrix}$

至此，我们根据约束条件——数据集合 $\mathcal X$ 借助经验概率分布 $\hat P(\mathcal X)$ 得到一个 带等号的约束条件。

最大熵原理推导过程

和最大熵思想推导相似，该问题本质上也是一个优化问题：

假设 $P(\mathcal X)$ 是使用最大熵原理最终求解的概率分布； $p(x^{(j)})$ 表示 $P(\mathcal X)$ 分布下某样本 $x^{(j)}$ 的 概率密度函数。因此， $P(\mathcal X)$ 的熵表示如下：
$\mathcal H[P(\mathcal X)] = - \sum_{x^{(j)} \in \mathcal X} p(x^{(j)}) \log p(x^{(j)})$
目标函数表示如下：
$\max - \sum_{x^{(j)} \in \mathcal X} p(x^{(j)}) \log p(x^{(j)}) = \min \sum_{x^{(j)} \in \mathcal X} p(x^{(j)}) \log p(x^{(j)})$
约束条件表示如下：
在满足数据集合提供的约束条件时，也要满足概率自身的约束条件。
使用最大熵定理求解的概率分布 $P(\mathcal X)$ 是基于样本集合 $\mathcal X$ 得到的，因此约束条件中需要将 $\mathbb E_{P(\mathcal X)}[f(\mathcal X)] = \mathbb E_{\hat P(\mathcal X)}[f(\mathcal X)]$

$\begin{cases} \sum_{i=1}^k p(x^{(j)}=x_i) = 1 \quad(x^{(j)} \in \mathcal X)\\ \mathbb E_{P(\mathcal X)}[f(\mathcal X)] = \mathbb E_{\hat P(\mathcal X)}[f(\mathcal X)] = \Omega \end{cases}$

终上，我们得到 一个目标函数与两个带等号的约束条件。

使用拉格朗日乘数法构造拉格朗日函数：
由于 $\mathbb E_{\hat P(\mathcal X)}[f(\mathcal X)]$ 是一个 $\mathcal Q$ 维向量，因此 $\lambda$ 也是一个 $\mathcal Q$ 维向量。最终目的是‘线性相加’ $\to \lambda^{T}\Omega$
$\begin{aligned} \mathcal L(p(x^{(j)}),\lambda_0,\lambda) & = \sum_{x^{(j)} \in \mathcal X} p(x^{(j)}) \log p(x^{(j)}) + \lambda_0 \left(1 - \sum_{i=1}^k p(x^{(j)} = x_i)\right) + \lambda^{T}(\Omega - \mathbb E_{P(\mathcal X)}[f(\mathcal X)]) \\ & = \sum_{x^{(j)} \in \mathcal X} p(x^{(j)}) \log p(x^{(j)}) + \lambda_0 \left(1 - \sum_{i=1}^k p(x^{(j)} = x_i)\right) + \lambda^{T}(\Omega - \sum_{x^{(j)} \in \mathcal X}p(x^{(j)}=x_i)f(x^{(j)})) \end{aligned}$
$\mathcal L(p(x^{(j)}),\lambda_0,\lambda)$ 对 $p(x^{(j)})$ 求偏导：
需要注意的点：
1. $p(x^{(j)})$ 与 $p(x^{(j)} = x_i)$ 表示的是同一个东西，它们都表示‘任意样本’ $x^{(j)}$ 选择第 $i$ 个值 $x_i$ 的概率密度函数；
2. 本文与视频推导出现矛盾的位置，拉格朗日函数的第一个连加符号 $\sum_{x^{(j)} \in \mathcal X}$ 它的连加次数是 $N$ (样本数量)次，而第二个连加符号 $\sum_{i=1}^k$ 它的连加次数是 $k$ (样本选择数值的数量)次，两个连加符号不能合并，但是‘视频’中合并了。但是该问题不影响最终结果，只是最后表现形式有少许偏差。
$\begin{aligned} \frac{\partial \mathcal L(p(x^{(j)}),\lambda_0,\lambda)}{\partial p(x^{(j)})} & = \sum_{x^{(j)} \in \mathcal X}\left[p(x^{(j)}) \cdot \frac{1}{p(x^{(j)})} +\log p(x^{(j)})\right] + 0 - \sum_{i=1}^k \lambda_0 + 0 - \lambda^{T} \sum_{x^{(j)} \in \mathcal X}f(x^{(j)}) \\ & = \sum_{x^{(j)} \in \mathcal X}\left[1 + \log p(x^{(j)})\right] - \sum_{i=1}^k \lambda_0 - \lambda^{T} \sum_{x^{(j)} \in \mathcal X}f(x^{(j)}) \\ & = \sum_{x^{(j)} \in \mathcal X}\left[1 + \log p(x^{(j)}) -f(x^{(j)})\right] - k \cdot \lambda_0 \end{aligned}$

由于 $k\cdot \lambda_0$ 是常数，可以将其进行变换：
$\begin{aligned} k \cdot \lambda_0 & = N \cdot \frac{k}{N}\cdot \lambda_0 \\ & = \sum_{x^{(j)} \in \mathcal X}\frac{k}{N} \cdot \lambda_0 \end{aligned}$
因此，将变换后的结果与原式合并：
$\sum_{x^{(j)} \in \mathcal X}\left[1 + \log p(x^{(j)}) -f(x^{(j)}) - \frac{k}{N} \cdot \lambda_0 \right]$

令 $\frac{\partial \mathcal L(p(x^{(j)}),\lambda_0,\lambda)}{\partial p(x^{(j)})} \triangleq 0$ ：
有：
$\begin{aligned} 1 + \log p(x^{(j)}) -f(x^{(j)}) - \frac{k}{N} \cdot \lambda_0 = 0 \\ \to p(x^{(j)}) = e^{\lambda^{T}f(x^{(j)}) - (\frac{k}{N}\lambda_0 + 1)} \quad(x^{(j)} \in \mathcal X) \end{aligned}$

最终通式结果表示如下：
$e^{\lambda^{T}f(x) - (\frac{k}{N}\lambda_0 + 1)}$

根据指数族分布介绍中的指数族分布定义式，发现：

$h (x) = 1$ ；
$\eta^T = \lambda^{T}$ ；
$\phi(x) = f(x)$ ；
$A(\eta) = \frac{k}{N}\lambda_0 + 1$ ；

至此，我们发现，在概率分布存在约束条件的情况下，满足约束条件下熵最大的分布就是指数族分布。

下一节将暂停一节指数族分布的介绍，将最大熵原理延伸至 $s i g m o i d, so f t ma x$ 函数。

猜你喜欢

【云原生 • DevOps】一文掌握容器管理工具 Rancher
pandas DataFrame.where() 检查一个或多个条件的数据帧，并相应地返回结果
I2S/(PCM/TDM)/AC97/PDM区别(二十)
Disruptor入门
linux利用sendmail发送邮件的方法
微软Windows 8重要特性一览
Java实现蓝桥杯VIP 算法提高交换Easy
javascript: 复制数组时的深拷贝及浅拷贝(chrome 105.0.5195.125)
spring boot + redis --- 心得
word2vec刘建平

相关主题

机器学习相关
机器学习简介
机器学习笔记
机器学习分类
机器学习资料
Python机器学习库
[机器学习] 集成学习
机器学习笔记（一）
机器学习和统计学习
机器学习_knn算法_1
机器学习之深度学习
[ML] 机器学习简介
机器学习 — 推荐系统
机器学习算法分类
《Scala机器学习》一一
机器学习之概率论
笔记笔记笔记
机器学习框架
笔记笔记
机器学习总结

zl程序教程