您现在的位置是：首页 > 硬件

当前栏目

机器学习笔记之指数族分布——充分统计量与模型参数的关系

机器统计笔记学习模型参数关系分布

2023-09-11 14:15:53 时间

机器学习笔记之指数族分布——充分统计量与模型参数的关系

引言

引言

在指数族分布介绍中提到了充分统计量这个概念，并且介绍了如果一个指数族分布已知充分统计量，就可以基于该统计量得到完整的概率分布表达形式。本节将从概率密度积分和极大似然估计的角度介绍 如何通过充分统计量 $\phi(x)$ 求解概率分布 $P(x\mid \eta)$ 中的模型参数 $\eta$ .。

回顾：指数族分布

指数族分布的一般式表达如下：
$\mid \eta) = h(x) e^{\eta^{T}\phi(x) - A(\eta)}$
其中， $\eta$ 表示概率模型/概率分布 $\mid \eta)$ 的参数； $\phi(x)$ 表示样本的充分统计量，它本质上是关于样本 $x$ 的函数； $A(\eta)$ 表示对数配分函数。

从概率密度积分角度观察充分统计量与模型参数间的联系

观察上式， $P(x\mid \eta)$ 本质上是关于样本 $x$ 的概率分布，则 $\mid \eta)$ 的概率密度积分结果等于1。即：
$\int_{x} P(x \mid \eta) dx = 1$

将指数族分布一般式带入上式，则有：
$\int_{x} h(x) e^{\eta^{T}\phi(x) - A(\eta)}dx = 1 \\ \int_{x} \frac{h(x) e^{\eta^{T}\phi(x)}}{e^{A(\eta)}}dx = 1$

由于 $e^{A(\eta)}$ 中不含 $x$ ，上式可转化为：
$\frac{\int_{x}h(x) e^{\eta^{T}\phi(x)} dx}{e^{A(\eta)}} = 1\\ e^{A(\eta)} = \int_{x}h(x)e^{\eta^{T}\phi(x)}dx$

基于该式，观察对数配分函数 $A(\eta)$ 与充分统计量 $\phi(x)$ 之间的联系。上述等式两端对 $\eta$ 求导：

等式左端：
$\frac{\partial e^{A(\eta)}}{\partial \eta} = e^{A(\eta)}\cdot A'(\eta)$
等式右端：
牛顿-莱布尼兹公式，将偏导提到积分号内部；积分号内部公式只有 $\eta^{T}$ 和 $\eta$ 相关。
$\frac{\partial \int_{x}h(x)e^{\eta^{T}\phi(x)}}{\partial \eta} = \int_{x}h(x)e^{\eta^{T}\phi(x)}\cdot\phi(x)dx$

最终有：
$e^{A(\eta)}\cdot A'(\eta) = \int_{x}h(x)e^{\eta^{T}\phi(x)}\cdot\phi(x)dx \\ A'(\eta) = \frac{\int_{x}h(x)e^{\eta^{T}\phi(x)}\cdot\phi(x)dx}{e^{A(\eta)}}$

由于 $e^{A(\eta)}$ 与 $x$ 无关，因此可以直接加入到积分号内部。
$\frac{1}{e^{A(\eta)}}$ 在对 $x$ 的积分式子中视为常数。
$\begin{aligned} A'(\eta) & = \int_{x} \frac{1}{e^{A(\eta)}}\cdot h(x)e^{\eta^{T}\phi(x)}\cdot\phi(x)dx \\ & = \int_{x} h(x) e^{\eta^{T} (\phi(x)- A(\eta))}\cdot\phi(x)dx \end{aligned}$

观察上式，积分号中的 $e^{\eta^{T} (\phi(x)- A(\eta))}$ 就是概率分布 $\mid \eta)$ 的一般式形式。因此，使用 $\mid \eta)$ 进行替换：
$A'(\eta) = \int_{x} P(x \mid \eta)\cdot \phi(x) dx$
可以将该式写成期望形式：
$A'(\eta) = \mathbb E_{p(x\mid \eta)}[\phi(x)]$

至此，物品们发现对数配分函数的一阶导函数与充分统计量之间的关联关系。
实际上，我们已经找到了概率模型 $\mid \eta)$ 中的模型参数 $\eta$ 与充分统计量 $\phi(x)$ 之间的联系：
其中 $A'^{(-1)}(\eta)$ 表示 $A'(\eta)$ 的反函数。
$\eta = A'^{(-1)}(\eta) = \mathbb E^{(-1)}_{P(x \mid \eta)}[\phi(x)]$

下面从样本极大似然估计的角度观察似然结果最大的概率模型参数 $\eta_{MLE}$ 与充分统计量 $\phi(x)$ 之间的联系。

从极大似然估计角度观察充分统计量与模型参数间的联系

符号定义：假设数据集合 $\mathcal X$ 中包含 $N$ 个样本：
$\mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\}$

基于极大似然估计的定义，极大似然估计方法求解最优模型参数 $\eta_{MLE}$ 表示如下：
$P$ 表示概率分布, $p$ 表示概率密度函数。
$\begin{aligned} \eta_{MLE} & = \mathop{\arg\max}\limits_{\eta} \log P(\mathcal X \mid \eta) \\ & = \mathop{\arg\max}\limits_{\eta} \prod_{x^{i} \in \mathcal X} p(x^{(i)} \mid \eta) \\ & = \mathop{\arg\max}\limits_{\eta} \sum_{x^{(i)} \in \mathcal X} \log p(x^{(i)} \mid \eta) \end{aligned}$

将指数族分布一般式带入：
$\begin{aligned} \mathop{\arg\max}\limits_{\eta} \sum_{x^{(i)} \in \mathcal X}\log \left[h(x^{(i)}) e^{\eta^{T} \phi(x^{(i)}) -A(\eta)}\right] \end{aligned}$

将公式展开， $\log$ 带进公式：
$\mathop{\arg\max}\limits_{\eta} \sum_{x^{(i)} \in \mathcal X}\left[\log h(x^{(i)}) + \eta^{T}\phi(x^{(i)}) - A(\eta)\right]$

由于求解关于 $\eta$ 的最优值，因此 $log h(x^{(i)})$ 与 $\eta$ 无关。最终将公式化简为：
$\eta_{MLE} =\mathop{\arg\max}\limits_{\eta} \sum_{x^{(i)} \in \mathcal X}\left[\eta^{T}\phi(x^{(i)}) - A(\eta)\right]$

为了求解最优值 $\eta_{MLE}$ ，我们对上述公式对 $\eta$ 进行求导：
离散条件下的牛顿莱布尼兹公式。
$\begin{aligned} \frac{\partial \sum_{x^{(i)} \in \mathcal X}\left[\eta^{T}\phi(x^{(i)}) - A(\eta)\right]}{\partial \eta} & = \sum_{x^{(i)} \in \mathcal X} \frac{\partial [\eta^{T}\phi(x^{(i)}) - A(\eta)]}{\partial \eta} \\ & = \sum_{x^{(i)} \in \mathcal X}\phi(x^{(i)}) - \sum_{x^{(i)} \in \mathcal X}A'(\eta) \end{aligned}$

由于 $A'(\eta)$ 与 $i$ 无关，因此上式转化为：
$\sum_{x^{(i)} \in \mathcal X}\phi(x^{(i)}) - N\cdot A'(\eta)$

令 $\frac{\partial \sum_{x^{(i)} \in \mathcal X}\left[\eta^{T}\phi(x^{(i)}) - A(\eta)\right]}{\partial \eta} \triangleq 0$ ，有：
$A'(\eta_{MLE}) = \frac{1}{N}\sum_{x^{(i)} \in \mathcal X} \phi(x^{(i)}) \\ \eta_{MLE} = A'^{(-1)}(\eta_{MLE})$

总结

无论是通过概率密度积分角度直接观察 $A'(\eta)$ 和 $\phi(x)$ 之间关系的方式还是通过极大似然估计方式求解最优模型参数 $\eta_{MLE}$ ，都能发现求解 $\eta$ 最关键的因素就是充分统计量。

这进一步验证了指数族分布中如果已知充分统计量，我们就可以对 概率分布进行完整估计。

猜你喜欢

一种非线性动态自适应惯性权重PSO算法-附代码
[HTML5] a tag, rel="noopener"
【云原生 | 15】Dockerfile构建镜像实战
Vue学习之--------深入理解Vuex、原理详解、实战应用（2022/9/1）
Data - 数据挖掘的基础概念
成功解决tensorflow.python.framework.errors_impl.InvalidArgumentError: slice index 1 of dimension 0 out o
DDR(一)
Docker容器和主机互相拷贝传输文件
57 openEuler搭建Mariadb数据库服务器-管理数据库用户
LCC编译器的源程序分析(59)代码生成的源程序注释
Lambda表达式详解
WinForm 加载本地图片
SAP gateway 后台OData model data查看工具
【基础入门题073】矩阵加减
【乘地铁回家】诗一首

相关主题

机器学习-PCA
机器学习面试
机器学习笔记
机器学习概念
机器选择
机器学习——Adaboost
机器学习和统计学习
机器学习 — 推荐系统
机器学习中的数学
机器学习的原理
机器学习之感知机
机器学习之K-means算法
机器学习算法比较
机器学习与R语言
笔记笔记笔记
机器学习汇总
机器学习-01-KNN

zl程序教程

当前栏目

机器学习笔记之指数族分布——充分统计量与模型参数的关系

机器学习笔记之指数族分布——充分统计量与模型参数的关系

引言

回顾：指数族分布

从概率密度积分角度观察充分统计量与模型参数间的联系

从极大似然估计角度观察充分统计量与模型参数间的联系

总结

相关文章