您现在的位置是：首页 > 硬件

当前栏目

机器学习笔记之条件随机场(五)推断任务介绍

机器笔记学习介绍任务条件推断机场

2023-09-11 14:15:53 时间

机器学习笔记之条件随机场——推断任务介绍

引言

引言

上一节介绍了条件随机场的建模对象——条件概率 $\mathcal P(\mathcal I \mid \mathcal O)$ 参数形式和向量形式的表示。本节将介绍条件随机场面对的任务，并针对推断任务进行介绍。

回顾：条件随机场

条件随机场(Condition Random Field,CRF)是一种结合了最大熵模型(Maximum Entropy Model)和隐马尔可夫模型(Hidden Markov Model,HMM)特点的无向图模型。其概率图结构表示如下：
条件随机场-示例

并且，它是一个概率判别模型，它的建模对象是关于隐变量的条件概率 $\mathcal P(\mathcal I \mid \mathcal O)$ ：
$\begin{aligned} \mathcal P(\mathcal I \mid \mathcal O) & = \frac{1}{\mathcal Z} \exp \left[\sum_{t=1}^{T-1} \sum_{m=1}^{\mathcal M} \lambda_m \cdot s_m(i_{t+1},i_t,\mathcal O) + \sum_{t=1}^{T} \sum_{l=1}^{\mathcal L} \eta_l \cdot g_l(i_t,\mathcal O)\right] \\ & = \frac{1}{\mathcal Z(\mathcal O,\theta)} \exp \left\langle \theta,\mathcal H(i_{t+1},i_t,\mathcal O)\right\rangle \quad \begin{cases} \theta = (\lambda_1,\cdots,\lambda_{\mathcal M},\eta_1,\cdots,\eta_{\mathcal L})^{T} \\ \mathcal H(i_{t+1},i_t,\mathcal O) = \begin{pmatrix} \sum_{t=1}^{T-1}s(i_{t+1},i_t,\mathcal O) \\ \quad \\ \sum_{t-1}^{T}g(i_t,\mathcal O) \end{pmatrix} \end{cases} \end{aligned}$
并且，条件随机场打破了齐次马尔可夫假设和观测独立性假设，虽然没有脱离动态模型的范畴，但针对的目标是时间/序列状态转移过程有限的情况。例如：一条文本句子，一条蛋白质序列。

其中 $s_m(i_{t+1},i_t,\mathcal O)$ 被称作转移特征函数(Transition Feature Function)， $g_l(i_t,\mathcal O)$ 被称作状态特征函数(State Feature Function)。以词性标注的角度为例，描述这两个特征函数。

一个句子由词语组成，这些词语的词性在句子中存在关联关系。例如： $\text{The boy knocked at the watermelon}$ (男孩敲了敲西瓜)。
我们需要定义合适的特征函数，来刻画数据的一些可能成立或者期望成立的经验特性。

当 $t = 3$ 时，此时的观测变量 $o_3$ 为 $\text{knocked}$ ，而下一时刻的词语是介词 $\text{at}$ 。在条件随机场——背景介绍中提到特征函数通常是实值函数，因此当前时刻的状态特征函数 $g_l(i_3,\mathcal O)$ 表示如下：
这里忽略‘时态’的影响，并且[ $\mathcal V$ ]表示动词；[ $\mathcal P$ ]表示介词。
$g_l(i_3,\mathcal O) = \begin{cases} 1 \quad \text{if } i_3 = [\mathcal V] \text{ and } o_3 = '\text{knock}' \\ 0 \quad \text{otherwise} \end{cases}$
很明显， $i_3 = [\mathcal V] \text{ and } o_3 = '\text{knock}'$ 描述了一种既定事实，只要满足该事实条件， $g_l(i_3,\mathcal O)$ 才有它的存在价值。同理，关于两个隐变量共同作用的转移特征函数 $s_m(i_4,i_3,\mathcal O)$ 表示如下：
和状态特征函数类似，当“当前词语的词性是动词”且“下一个词语的词性是介词”，并且当前单词是 $\text{knock}$ 时，该特征函数被启用。对应产生价值的大小由对应特征函数的参数 $\lambda_m,\eta_l$ 决定。
$s_m(i_4,i_3,\mathcal O)= \begin{cases} 1 \quad \text{if } i_4 = [\mathcal P],i_3 = [\mathcal V] \text{ and } o_3 = '\text{knock}'\\ 0 \quad \text{otherwise}\end{cases}$

条件随机场要解决的任务

条件随机场作为一个概率图模型，其主要任务主要分为两个部分：

学习任务(Learning)，主要针对模型参数进行求解。(Parameter Estimation)
对于条件随机场的学习任务，可以将其理解为：给定训练数据集 $\mathcal D$ ：
- 样本/标签维度均是 $T$ ，即样本维度和条件随机场建模的‘序列/时间长度相同’。不要和‘转置符号’弄混;
- 从真实样本的角度观察，样本 $x^{(i)}$ 可能是某一个句子，一个序列，而不是一个单词，一个氨基酸;对应的标签 $y^{(i)}$ 可能是‘每个单词的词性标注组成的序列’。
- 各样本之间属于‘独立同分布’，各样本之间不存在关联关系。
  $\begin{aligned} \mathcal D & = \{(x^{(i)},y^{(i)})\}_{i=1}^{N} \quad x^{(i)},y^{(i)} \in \mathbb R^T \\ x^{(i)} & = \left(x_1^{(i)},x_2^{(i)},\cdots,x_T^{(i)}\right)^T \to x_{1:T}^{(i)}\\ y^{(i)} & = \left(y_1^{(i)},y_2^{(i)},\cdots,y_T^{(i)}\right)^T \end{aligned}$
对应图像示例如下：

对于最优参数 $\hat {\theta}$ 的估计表示如下：
其朴素思想在于：希望预测的标签序列 $y$ 能够与对应的样本 $x$ 最大程度的匹配，即 $\mathcal P(y \mid x)$ 越大越好。并且各样本之间独立同分布，因此在学习过程中，模型参数的评价标准就是对‘数据集合内’的所有样本的 $\mathcal P(y \mid x)$ 都达到最大。
$\begin{aligned} \hat {\theta} = \mathop{\arg\max}\limits_{\theta} \prod_{i=1}^N \mathcal P \left(y^{(i)} \mid x^{(i)}\right) \end{aligned}$
对于未知变量的推断任务(Inference)：
在概率图模型——推断基本介绍中提到过关于推断的描述。
- 通过联合概率分布，对边缘概率分布进行求解 (Marginal Probability)：
  $\mathcal P(i_t \mid \mathcal O) = \sum_{i_1,\cdots,i_{t-1},i_{t+1},\cdots,i_T}\mathcal P(\mathcal I \mid \mathcal O)$
  从样本角度观察，可以看作：给定一条完整句子序列的条件下，对句中某一单词词性的条件概率进行求解：
  $\mathcal P(y_t^{(i)} \mid x_{1:T}^{(i)})$
- 求解条件概率分布(Conditional Probability)：
  $\mathcal I = \mathcal I_{\mathcal A} \cup \mathcal I_{\mathcal B} \to \mathcal P(\mathcal I_{\mathcal A} \mid \mathcal I_{\mathcal B})$
  由于条件随机场是概率判别模型，求解条件概率主要针对概率生成模型，对于概率判别模型基本没有意义。例如隐马尔可夫模型中的预测任务(Prediction)：
  齐次马尔可夫假设~
  $\begin{aligned} \mathcal P(i_{t+1} \mid o_1,\cdots,o_t) & = \sum_{i_t} \mathcal P(i_{t+1},i_t \mid o_1,\cdots,o_t) \\ & = \sum_{i_t} \mathcal P(i_{t+1} \mid i_t,o_1,\cdots,o_t) \cdot \mathcal P(i_{t} \mid o_1,\cdots,o_t) \\ & = \sum_{i_t} \mathcal P(i_{t+1} \mid i_t) \cdot \mathcal P(i_t \mid o_1,\cdots,o_t) \end{aligned}$
  此时，将预测任务转化为滤波任务(Filtering)。对应概率图描述表示如下：
- 最大后验概率推断(MAP Inference)：主要针对解码任务(Decoding)，依然以隐马尔可夫模型的解码任务为例，在求解 $\mathcal P(\mathcal I\mid \mathcal O) = \mathcal P(i_1,\cdots,i_T \mid o_1,\cdots,o_T)$ 过程中，需要求解一组适合的状态序列 $\hat {\mathcal I}$ ，使得后验概率 $\mathcal P(\hat {\mathcal I} \mid \mathcal O,\lambda)$ 最大：
  $\hat {\mathcal I} = \mathop{\arg\max}\limits_{\mathcal I} \mathcal P(\hat{\mathcal I} \mid \mathcal O,\lambda)$
  但实际求解过程并没有直接对 $\mathcal P(\mathcal I \mid \mathcal O)$ 进行求解，而是通过 维特比算法 求解 相邻时刻下，状态变量取值的联合概率分布之间的关系：
  $\begin{aligned} \delta_t(k) & = \mathop{\max}\limits_{\mathcal I_{t-1}} \mathcal P(\mathcal O,\mathcal I_{t-1},i_t = q_k \mid \lambda) \\ \delta_{t+1}(j) & = \mathop{\max}\limits_{\mathcal I_t}\mathcal P(\mathcal O,\mathcal I_t,i_{t+1} = q_j \mid \lambda) \\ \delta_t(k) & \overset{\text{?}}{\Leftrightarrow}\delta_{t+1}(j) \end{aligned}$
  这种将 $\mathcal P(\mathcal I \mid \mathcal O,\lambda)$ 的问题转化为 $\mathcal P(\mathcal I,\mathcal O \mid \lambda)$ 的问题，用到了最大后验概率(Maximum a posteriori Probability,MAP)的思想：
  $\begin{aligned} \hat {\mathcal I} & = \mathop{\arg\max}\limits_{\mathcal I} \mathcal P(\mathcal I \mid \mathcal O,\lambda) \\ & = \mathop{\arg\max}\limits_{\mathcal I} \frac{\mathcal P(\mathcal I,\mathcal O \mid \lambda)}{\mathcal P(\mathcal O,\lambda)} \\ & \propto \mathop{\arg\max}\limits_{\mathcal I} \mathcal P(\mathcal I,\mathcal O\mid \lambda) \end{aligned}$
  对于条件随机场，它的解码任务即：找到一条合适的词性标注序列 $\hat {y}^{(i)}$ ，使得 $\mathcal P(\hat {y}^{(i)} \mid \mathcal x_{1:T}^{(i)})$ 达到最大。数学符号表达如下：
  $\hat {y}^{(i)} = \mathop{\arg\max}\limits_{y^{(i)} = (y_1^{(i)},\cdots,y_T^{(i)})^T} \mathcal P(y^{(i)} \mid x^{(i)})$

关于条件随机场的推断任务(2022/11/16)

边缘概率分布

条件随机场的边缘概率分布求解可以总结为：
这里假定每一时刻的隐状态 $y_t^{(i)}(t=1,2,\cdots,T)$ 的取值均为‘离散型随机变量’，其中每一种取值均有对应的概率结果，从而构成概率分布。
$\text{Given Model}(\theta) ,\mathcal P(\mathcal Y = y^{(i)} \mid \mathcal X = x^{(i)}) \to \mathcal P(y_t^{(i)} = j \mid x^{(i)})$
回顾条件随机场的概率图表示，它是一个包含 $T$ 个极大团的马尔可夫随机场：
由于模型已知，因而各极大团的势函数也是已知项。
$\begin{aligned} \mathcal P(y^{(i)} \mid x^{(i)}) & = \mathcal P(y_1^{(i)},y_2^{(i)},\cdots,y_T^{(i)} \mid x_{1:T}^{(i)})\\ & = \frac{1}{\mathcal Z} \prod_{t=1}^{T-1} \psi_t(y_{t}^{(i)},y_{t+1}^{(i)},x_{1:T}^{(i)}) \end{aligned}$
在求解某一项 $y_t^{(i)}(t=1,2,\cdots,T)$ 时，需要将其他无关项积分掉：
$\begin{aligned} \mathcal P(y_t^{(i)} \mid x_{1:T}^{(i)}) & = \sum_{y_1^{(i)},\cdots,y_{t-1}^{(i)},y_{t+1}^{(i)},\cdots,y_{T}^{(i)}} \mathcal P(y^{(i)} \mid x^{(i)}) \\ & = \sum_{y_1^{(i)},\cdots,y_{t-1}^{(i)}} \sum_{y_{t+1}^{(i)},\cdots,y_T^{(i)}} \frac{1}{\mathcal Z} \prod_{t=1}^{T-1} \psi_t(y_{t}^{(i)},y_{t+1}^{(i)},x_{1:T}^{(i)}) \end{aligned}$
观察上式，这里假设隐状态 $y_t^{(i)}$ 的取值方式集合为 $\mathcal K$ ，集合中的每一种取值方式均需要执行 $T - 1$ 次连乘操作，并且上式中一共包含 $T - 1$ 个连加项，它的时间复杂度表示为：
$|\mathcal K|$ 表示为‘取值集合中的元素数量’。
$O(|\mathcal K|^{T-1}) \cdot O(T-1) = O\left[(T-1) |\mathcal K|^{T-1}\right]$
这种包含指数的复杂度是极难求解的。

边缘概率分布的简化过程

回顾上式，观察连乘部分：
$\prod_{t=1}^{T-1} \psi_t(y_t^{(i)},y_{t+1}^{(i)},x_{1:T}^{(i)}) = \psi_1(y_1^{(i)},y_2^{(i)},x_{1:T}^{(i)}) \cdots \psi_{T-1}(y_{T-1}^{(i)},y_T^{(i)},x_{1:T}^{(i)})$
发现：连乘中的每一项均只和两个相邻的隐状态相关，和其他隐状态无关。因此，可以将原式中的连加项带入到连乘部分的各项中。
其中 $k$ 是隐状态取值集合 $\mathcal K$ 的一种取值。
$\begin{aligned} \mathcal P(y_t^{(i)} \mid x_{1:T}^{(i)}) & = \frac{1}{\mathcal Z} \left[\sum_{y_1^{(i)},\cdots,y_{t-1}^{(i)}} \prod_{t=1}^{t-1} \psi_t(y_{t}^{(i)},y_{t+1}^{(i)},x_{1:T}^{(i)})\right] \cdot \left[\sum_{y_{t+1}^{(i)},\cdots,y_{T}^{(i)}} \prod_{t=t}^{T-1}\psi_t(y_{t}^{(i)},y_{t+1}^{(i)},x_{1:T}^{(i)})\right] \\ & = \frac{1}{\mathcal Z} \left[\sum_{y_1^{(i)},\cdots,y_{t-1}^{(i)}} \psi_1(y_1^{(i)},y_2^{(i)},x_{1:T}^{(i)}) \cdots \psi_{t-1}(y_{t-1}^{(i)},y_t^{(i)} = k,x_{1:T}^{(i)})\right] \cdot \left[\sum_{y_{t+1}^{(i)},\cdots,y_{T}^{(i)}}\psi_{t}(y_t^{(i)} = k,y_{t+1}^{(i)},x_{1:T}^{(i)}) \cdots \psi_{T-1}(y_{T-1}^{(i)},y_T^{(i)},x_{1:T}^{(i)})\right] \end{aligned}$

首先观察第一个中括号项 $\Delta_{left}$ ，针对这种 积分项与函数匹配的情况，使用变量消去法的方式进行化简：
变量消去法是精确推断的一种化简方式，欢迎回去考古。
$\begin{aligned} \Delta_{left} & = \sum_{y_1^{(i)},\cdots,y_{t-1}^{(i)}} \psi_1(y_1^{(i)},y_2^{(i)},x_{1:T}^{(i)}) \cdots \psi_{t-1}(y_{t-1}^{(i)},y_t^{(i)} = k,x_{1:T}^{(i)}) \\ & = \sum_{y_2^{(i)},\cdots,y_{t-1}^{(i)}} \psi_2(y_2^{(i)},y_3^{(i)},x_{1:T}^{(i)}) \cdots \psi_{t-1}(y_{t-1}^{(i)},y_t^{(i)} = k,x_{1:T}^{(i)}) \sum_{y_1^{(i)}} \psi_1(y_1^{(i)},y_2^{(i)},x_{1:T}^{(i)}) \end{aligned}$
此时， $\sum_{y_1^{(i)}} \psi_1(y_1^{(i)},y_2^{(i)},x_{1:T}^{(i)})$ 会将 $y_1^{(i)}$ 积分掉，最终返回一个仅关于 $y_2^{(i)}$ 的函数：
$m_{1}(y_2^{(i)},x_{1:T}^{(i)})$ 表示链式条件随机场中‘第 $1$ 个极大团将’ $y_1^{(i)}$ 积分掉后的函数结果。
$\sum_{y_1^{(i)}} \psi_1(y_1^{(i)},y_2^{(i)},x_{1:T}^{(i)}) = m_{1}(y_2^{(i)},x_{1:T}^{(i)})$
最终， $\Delta_{left}$ 继续表示为如下形式：
- 将第 $m_{1}(y_2^{(i)},x_{1:T}^{(i)})$ 与第 $2$ 个极大团结合，继续进行积分。
  $\sum_{y_2^{(i)}} \psi_2(y_2^{(i)},y_3^{(i)},x_{1:T}^{(i)}) \cdot m_1(y_2^{(i)},x_{1:T}^{(i)}) = m_{1 \to 2}(y_3^{(i)},x_{1:T}^{(i)})$
- $m_{1 \to 2}(y_3^{(i)},x_{1:T}^{(i)})$ 表示 $y_2^{(i)}$ 被积分掉，消耗第 $1$ 个极大团产生的关于第 $2$ 个极大团的函数结果。
$\begin{aligned} \Delta_{left} & = \sum_{y_3^{(i)},\cdots,y_{t-1}^{(i)}} \psi_3(y_3^{(i)},y_4^{(i)},x_{1:T}^{(i)}) \cdots \psi_{t-1}(y_{t-1}^{(i)},y_t^{(i)} = k,x_{1:T}^{(i)}) \cdot \sum_{y_2^{(i)}} \psi_2(y_2^{(i)},y_3^{(i)},x_{1:T}^{(i)}) \cdot m_1(y_2^{(i)},x_{1:T}^{(i)}) \\ & = \sum_{y_3^{(i)},\cdots,y_{t-1}^{(i)}} \psi_3(y_3^{(i)},y_4^{(i)},x_{1:T}^{(i)}) \cdots \psi_{t-1}(y_{t-1}^{(i)},y_t^{(i)} = k,x_{1:T}^{(i)}) \cdot m_{1\to 2}(y_3^{(i)},x_{1:T}^{(i)}) \\ & = \cdots \\ & = \sum_{y_{t-1}^{(i)}} \psi_{t-1}(y_{t-1}^{(i)},y_{t}^{(i)} = k,x_{1:T}^{(i)}) \cdot m_{(t-3) \to (t-2)}(y_{t-1}^{(i)},x_{1:T}^{(i)}) \\ & = m_{(t-2) \to (t-1)}(y_t^{(i)} = k,x_{1:T}^{(i)}) \end{aligned}$
如果简化过程中保留积分的简化过程， $\Delta_{left}$ 表示为如下形式：
给 $\Delta_{left}$ 定义一个符号： $\alpha_t(k)$ 。
$\alpha_t(k) =\sum_{y_{t-1}^{(i)}} \psi_{t-1}(y_{t-1}^{(i)},y_{t}^{(i)} = k,x_{1:T}^{(i)}) \cdots \sum_{y_2^{(i)}} \psi_2(y_2^{(i)},y_3^{(i)},x_{1:T}^{(i)})\sum_{y_1^{(i)}} \psi_1(y_1^{(i)},y_2^{(i)},x_{1:T}^{(i)})$
其他时刻的表示方法同理。如 $\alpha_{t-1}(j)$ ：
$\alpha_{t-1}(j) = \sum_{y_{t-2}^{(i)}} \psi_{t-2}(y_{t-2}^{(i)},y_{t-1}^{(i)} = j,x_{1:T}^{(i)}) \cdots \sum_{y_2^{(i)}} \psi_2(y_2^{(i)},y_3^{(i)},x_{1:T}^{(i)})\sum_{y_1^{(i)}} \psi_1(y_1^{(i)},y_2^{(i)},x_{1:T}^{(i)})$
那么 $\alpha_t(k)$ 与 $\alpha_{t-1}(j)$ 之间的关联关系表示如下：
再强调一下， $\mathcal K$ 是隐状态离散的取值集合， $\in \mathcal K$ ,完全可以通过迭代方式求解 $\alpha_t(k)$ 。
$\begin{aligned} \alpha_t(k) & = \sum_{y_{t-1}^{(i)}} \psi_{t-1}(y_{t-1}^{(i)}=j,y_t^{(i)}=k,x_{1:T}^{(i)}) \cdot \alpha_{t-1}(j) \\ & = \sum_{j \in \mathcal K} \psi_{t-1}(y_{t-1}^{(i)}=j,y_t^{(i)}=k,x_{1:T}^{(i)}) \cdot \alpha_{t-1}(j) \end{aligned}$

第二个中括号项 $\Delta_{right}$ 同理，定义为 $\beta_t(m)$ ，表示如下：
$\beta_t(m) = \sum_{y_{t+1}^{(i)}} \psi_{t}(y_{t}^{(i)} = m,y_{t+1}^{(i)},x_{1:T}^{(i)})\sum_{y_{t+2}^{(i)}} \psi_{t+1}(y_{t+1}^{(i)},y_{t+2}^{(i)},x_{1:T}^{(i)}) \cdots \sum_{y_T^{(i)}} \psi_{T-1}(y_{T-1}^{(i)},y_{T}^{(i)},x_{1:T}^{(i)})$
最终，求解边缘概率分布结果 $\mathcal P(y_t^{(i)} \mid x_{1:T}^{(i)})$ ：
$\mathcal P(y_t^{(i)} \mid x_{1:T}^{(i)}) = \frac{1}{\mathcal Z} \cdot \alpha_t(k) \cdot \beta_t(m)$

简单总结

关于链式条件随机场的前向后向算法本质上就是不同方向的变量消去法，通过前后向的特征不断积分、融合，最终得到求解时刻的边缘概率结果；
上述边缘概率求解方法是基于结构最简单的链式条件随机场，如果条件随机场的格式复杂，对变量消除法进行延伸。如信念传播(Belief Propagation)。

猜你喜欢

使用C# CSOM 读取 O365 Share Point Online 中的文档库，一级文件夹，二级文件夹...
创建ArkTS卡片
100个HarmonyOS 2.0开发者Beta公测名额，限时认领！
8个最高效的Python爬虫框架，你用过几个？
Redis: Scripts
MySQL性能优化
SpringSession入门
SwiftUI 实战之如何设置倒计时时间间隔(教程含源码)
指向函数的指针--转
我没有想赢，我只是不想输
PAAS
Docker swarm 集群配置

相关主题

机器学习的方法
机器学习之深度学习
《Scala机器学习》一一
笔记笔记笔记

zl程序教程