您现在的位置是：首页 > 硬件

当前栏目

（《机器学习》完整版系列）第14章概率图模型——14.1 隐马尔可夫模型HMM（状态变量（隐的）、观测变量（可见））

机器学习变量系列模型 14 概率完整版

2023-09-11 14:14:53 时间

概率图模型是机器学习的一个重要分支，其基础理论涉及到图论和概率论

利用图来表达“变量关系”，在此模型下讨论变量的联合分布或条件分布，即是概率图模型。

常用概率图模型分类：
图14.1 概率图模型

图14.1 概率图模型

HMM的三个基本问题：观测序列
$\boldsymbol{\mathrm{x}}=\{x_1,x_2,\cdots,x_n\}$ 、状态序列 $\boldsymbol{\mathrm{y}}=\{y_1,y_2,\cdots,y_n\}$ 以及参数 $\lambda$ 三者中，已知二者求另一个的问题。仿真求值方法作为基本手段。

隐马尔可夫模型HMM

隐马尔可夫模型属于有向图，箭头表示依赖，因此，重点研究条件概率问题，利用条件概率公式【西瓜书式(7.7)】容易将联合分布转化为条件分布的积
$\begin{align} & \quad P(y_1,y_2,\cdots,y_n)\notag \\ & =P(y_1)P(y_2,y_3,\cdots,y_n\,|\,y_1)\notag \\ & =P(y_1)P(y_2\,|\,y_1)P(y_3,y_4,\cdots,y_n\,|\,y_1,y_2)\notag \\ & =P(y_1)P(y_2\,|\,y_1)P(y_3\,|\,y_1,y_2)P(y_3,y_4,\cdots,y_n\,|\,y_1,y_2,y_3)\notag \\ & =\cdots\notag \\ & =P(y_1)P(y_2\,|\,y_1)P(y_3\,|\,y_1,y_2)\cdots P(y_n\,|\,y_1,y_2,\cdots,y_{n-1}) \tag{14.1} \\ & =p(y_1)\prod _{i=2}^nP(y_i\,|\,y_1,y_2,\cdots ,y_{i-1}) \tag{14.2} \end{align}$
如何将无关的条件（或关系弱的条件）剔除呢？在一定的假设基础上，能实现这一需求，从而大大简化计算。例如，对于有向图而言，假定结点 $y_i$ 仅与其父结点集 $\mathrm{pa}_{y_i}$ 相关，则
$\begin{align} P(y_1,y_2,\cdots,y_n) & =p(y_1)\prod _{i=2}^nP(y_i\,|\,\mathrm{pa}_{y_i}) \tag{14.3} \end{align}$

（1）马尔可夫链

图14.2 马尔可夫链

图14.2 中，时间系列随机变量（ $y_1,y_2,\cdots,y_k,y_{k+1},\cdots$ ）中， $y_{k+1}$ 仅与最近的过去 $y_k$ 相关，即
$\begin{align} P(y_{k+1}\,|\,y_1,y_2,\cdots,y_k)=P(y_{k+1}\,|\,y_k) \tag{14.4} \end{align}$
由此式，可推导出联合分布公式
$\begin{align} P(y_1,y_2,\cdots,y_n) & =P(y_1,y_2,\cdots,y_{n-1})P(y_n\,|\,y_1,y_2,\cdots,y_{n-1})\notag \\ & =P(y_1,y_2,\cdots,y_{n-1})P(y_n\,|\,y_{n-1})\quad \text{（由式(14.4)）}\notag \\ & =\cdots\notag \\ & =P(y_1)P(y_2\,|\,y_1)P(y_3\,|\,y_2)\cdots P(y_n\,|\,y_{n-1})\notag \\ & =p(y_1)\prod _{i=2}^nP(y_i\,|\,y_{i-1}) \tag{14.5} \end{align}$
由式(14.2)也可以得到式(14.5)，只不过是二者在过程中处理的方向不同：

$\bullet$ 前者“ $y_1\longrightarrow y_n$ ”（式(14.2)的第一个等式是处理 $P(y_1)$ ）

$\bullet$ 后者“ $y_1\longleftarrow y_n$ ”（式(14.5)的第一个等式是处理 $P(y_n\,|\,y_1,y_2,\cdots,y_{n-1})$ ）。

（2）隐马尔可夫链

现在设图14.2 中的 $y_i$ 是不可见的（隐），但可观测它的某种表现 $x_i$ ，形成图14.3 ：
图14.3 隐马尔可夫模型

图14.3 隐马尔可夫模型

图中的箭头线“ $A\rightarrow B$ ”表示父子关系，即“ $A$ 产生 $B$ ”或表述为“ $B$ 依赖于 $A$ ”，在时间窗口 $t = i$ 时，有一对变量 $y_i,x_i)$ ， $y_i$ 称为状态变量（隐的）、 $x_i$ 称为观测变量（或在时刻 $i$ 的观测值）（符号 $x_i$ 到底是变量名还是变量的值，需要从上下文中理解）。观测变量 $x_i$ 仅依赖于当前的状态变量 $y_i$ ，即
$\begin{align} P(x_i\,|\,y_1,y_2,\cdots,y_i)=P(x_i\,|\,y_i) \tag{14.6} \end{align}$

在时刻 $i$ ，未来的状态 $y_{i+1},y_{i+2},\cdots,y_{n}$ 并不影响 $x_i$ ，即
$\begin{align} P(x_i\,|\,y_1,y_2,\cdots,y_i,\cdots,y_n) & =P(x_i\,|\,y_1,y_2,\cdots,y_i)\notag \\ & =P(x_i\,|\,y_i) \tag{14.7} \end{align}$

在时刻 $n$ 时的联合分布概率
$\begin{align} & \quad P((x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n))\notag\\ & =P((x_1,x_2,\cdots,x_n),(y_1,y_2,\cdots,y_n))\notag \\ & =P(y_1,y_2,\cdots,y_n)P(x_1,x_2,\cdots,x_n\,|\,y_1,y_2,\cdots,y_n) \tag{14.8} \end{align}$

简记 $\boldsymbol{y}=(y_1,y_2,\cdots,y_n)$ ，则式(14.8) 中的条件概率
$\begin{align} & \quad P(x_1,x_2,\cdots,x_n\,|\,y_1,y_2,\cdots,y_n)\notag \\ & =P(x_1,x_2,\cdots,x_n\,|\,\boldsymbol{y})\notag \\ & =P(x_1,x_2,\cdots,x_{n-1}\,|\,\boldsymbol{y})P(x_{n}\,|\,\boldsymbol{y},x_1,x_2,\cdots,x_{n-1})\notag \\ & =P(x_1,x_2,\cdots,x_{n-1}\,|\,\boldsymbol{y})P(x_{n}\,|\,\boldsymbol{y})\notag \\ & =\cdots\notag \\ & =P(x_{1}\,|\,\boldsymbol{y})P(x_{2}\,|\,\boldsymbol{y})\cdots P(x_{n}\,|\,\boldsymbol{y})\notag \\ & =P(x_{1}\,|\,y_1)P(x_{2}\,|\,y_2)\cdots P(x_{n}\,|\,y_n)\quad \text{（由式(14.7)）}\notag \\ & =\prod _{i=1}^nP(x_{i}\,|\,y_i) \tag{14.9} \end{align}$

将式(14.5)及式(14.9)代入式(14.8)即得【西瓜书式(14.1)】。

（3）隐马尔可夫模型的参数

观察隐马尔可夫模型（HMM）【西瓜书式(14.1)】，它有三类式子，对应于三组参数。

（i） $P(y_1)$ ：在初始时刻，取各状态的概率。

设状态变量 $y$ 的取值范围为： $\mathcal{Y} =\{s_1,s_2,\cdots,s_N\}$ ，初始状态 $y_1$ 可以取 $\mathcal{Y}$ 中任意值（依概率）。
记
$\begin{align} \pi _i=P(y_1=s_i)\quad \quad i\leqslant i \leqslant N \tag{14.10} \end{align}$
则
$\begin{align} \sum_{i=1}^N\pi _i=1 \tag{14.11} \end{align}$

$\boldsymbol{\pi}=(\pi _1,\pi _2,\cdots,\pi _N)$ 为一组参数，称为初始状态概率。

（ii） $P(y_i\,|\,y_{i-1})$ ：它反映状态之间的转换。

记
$\begin{align} a_{ij}=P(y_{t+1}=s_j\,|\,y_t=s_i) \tag{14.12} \end{align}$
则对应的转换表（矩阵）为
$\begin{align} \mathbf{A}=([a_{ij}])_{N\times N} \tag{14.13} \end{align}$
对应有状态转移图（有向图），如图14.4 ，图中的有向线对应于矩阵 $\mathbf{A}$ 中的非零值。
图14.4 状态转移图

图14.4 状态转移图

参数 $\mathbf{A}$ 称为状态转移概率（矩阵）。

（iii） $P(x_i\,|\,y_{i})$ ：它反映在状态 $s_i$ 时获得观测值 $o_j$ 的概率。

记
$\begin{align} b_{ij}=P(x_{t}=o_j\,|\,y_t=s_i) \tag{14.14} \end{align}$
其中， $x$ 的取值范围为： $\mathcal{X} =\{o_1,o_2,\cdots,o_M\}$

则对应的矩阵
$\begin{align} \mathbf{B}=([b_{ij}])_{N\times M} \tag{14.15} \end{align}$
称为输出观测值概率（矩阵）。

综上，HMM的参数为： $\lambda =[\mathbf{A},\mathbf{B},\boldsymbol{\pi}]$ ，给定了参数 $\lambda$ ，则确定了该HMM。

（4）仿真求值

在7.7 贝叶斯网络推断中，我们讨论了：已知事件概率，如何产生事件？以及已知样本的概率分布，如何采样生成样本？由此思路，即可在已知 $\lambda$ 的情况下，可以仿真出HMM所产生的观测序列 $\{x_1,x_2,\cdots,x_n\}$ 。

（5）HMM的三个基本问题

【西瓜书p.321】讨论了HMM的三个基本问题，简言之：观测序列
$\boldsymbol{\mathrm{x}}=\{x_1,x_2,\cdots,x_n\}$ 、状态序列 $\boldsymbol{\mathrm{y}}=\{y_1,y_2,\cdots,y_n\}$ 以及参数 $\lambda$ 三者中，已知二者求另一个的问题。上述仿真求值方法是作为基本手段。

注：我们以 $\boldsymbol{\mathrm{x}}$ 表示以序列 $\{x_1,x_2,\cdots,x_n\}$ 形成的向量，而不用一般的向量符 $\boldsymbol{x}$ 表示，因为，在图中它实际上是一个结点，从时间维才体现成向量。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：13.6 半监督聚类（k均值算法+约束）
下一篇：14.2 马尔可夫随机场（无向图，“团”与“极大团”，MRF的“三性”）

猜你喜欢

MySQL 服务器级别的锁等待
C语言数组一种巧妙的使用方式
c#并行扫描端口控制台程序
android 开发获取各种intent （图片、apk文件、excel、pdf等文件）
SEGGER_RTT_printf()函数实现打印浮点、负数-示例
express+gulp构建项目（一）项目目录结构
8.2.3多态性第8章面向对象编程简介
C# 高效提取txt文档最后一行数据
包含类定义的文件夹
CSS - 修改input - placeholder 和 readonly 的样式
移动端插件IScroll.js
makefile的调试器remake
C#调用DLL的几种方法
karma + phantom + mocha + sion + chai + nightwatch + selenium2(webdriver) 测试框架学习
Google Earth Engine（GEE） ——全球风暴潮重建（GSSR）数据库
[LeetCode] Word Break

相关主题

机器学习相关
机器学习之梯度下降
机器学习之数学基础
机器学习入门

zl程序教程

当前栏目

（《机器学习》完整版系列）第14章概率图模型——14.1 隐马尔可夫模型HMM（状态变量（隐的）、观测变量（可见））

隐马尔可夫模型HMM

相关文章

当前栏目

（《机器学习》完整版系列）第14章 概率图模型——14.1 隐马尔可夫模型HMM（状态变量（隐的）、观测变量（可见））

隐马尔可夫模型HMM

相关文章

（《机器学习》完整版系列）第14章概率图模型——14.1 隐马尔可夫模型HMM（状态变量（隐的）、观测变量（可见））