您现在的位置是：首页 > 硬件

当前栏目

机器学习笔记之变分推断(五)重参数化技巧

机器笔记学习技巧参数推断

2023-09-11 14:15:53 时间

机器学习笔记之变分推断——重参数化技巧

引言

引言

上一节介绍了随机梯度变分推断(Stochastic Gradient Variational Inference,SGVI)。本节将介绍SGVI求解过程中遇到的问题，并针对为题介绍一种处理方法——重参数化技巧。

回顾：随机梯度变分推断

由于基于平均场假设的经典变分推断(Classical Variational Inference)的假设条件非常苛刻，基本无法在真实环境中使用。

因此，介绍了随机梯度变分推断，从 $P(\mathcal Z \mid \mathcal X)$ 整体角度进行求解。

SGVI的核心是将分布 $\mathcal Q(\mathcal Z)$ 视为概率模型，既然是概率模型，自然存在描述概率模型的模型参数。
这里定义 $\mathcal Q(\mathcal Z)$ 的模型参数为 $\phi$ ，将求解 $\mathcal Q(\mathcal Z)$ 的梯度转化为求解模型参数 $\phi$ 的梯度。
实际上， $\mathcal Q(\mathcal Z)$ 本身并不是‘隐变量的边缘概率分布’，而是条件概率分布 $\mathcal Q(\mathcal Z \mid \mathcal X)$ 。只是 $\mathcal X$ 是观测数据，是已知量，因此省略。
$\mathcal Q(\mathcal Z) \to \mathcal Q(\mathcal Z \mid \phi) \\ \begin{aligned} \mathcal L[\mathcal Q(\mathcal Z)] & = \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \log \left[\frac{P(\mathcal X ,\mathcal Z)}{\mathcal Q(\mathcal Z \mid \phi)}\right] d\mathcal Z\\ & = \mathcal L(\phi) \end{aligned}$
随后 $\mathcal L(\phi)$ 对 $\phi$ 求解梯度，最终化简结果如下：
$\nabla_{\phi} \mathcal L(\phi) = \mathbb E_{\mathcal Q(\mathcal Z \mid \phi)} \left\{ \nabla_{\phi} \log \mathcal Q(\mathcal Z \mid \phi) \cdot \left[log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] \right\}$
至此，将梯度结果 $\nabla_{\phi}\mathcal L(\phi)$ 表示为期望形式，后续操作可以通过蒙特卡洛采样方法对期望结果进行估计。
假设从 概率模型 $P(\mathcal Z \mid \phi)$ 中采集了 $N$ 个样本。即：
$z^{(n)} \sim \mathcal Q(\mathcal Z \mid \phi) \quad (n=1,2,\cdots,N)$
上述期望使用蒙特卡洛采样方法近似表示为：
$\nabla_{\phi}\mathcal L(\phi) \approx \frac{1}{N} \sum_{n=1}^{N} \left\{\nabla_{\phi} \log \mathcal Q(z^{(n)} \mid \phi) \left[ \log P(\mathcal X,z^{(n)}) - \log \mathcal Q(z^{(n)} \mid \phi)\right]\right\}$

随机梯度变分推断的问题

公式推导方式本身没有问题，问题在于采样过程中出现的高方差现象(High Variance)。该现象产生的具体原因如下：

观察基于蒙特卡洛方法的近似公式，大括号内主要包含两项，两项均包含 $z^{(n)}$ 。观察第一项：
$\nabla_{\phi} \log \mathcal Q(z^{(n)} \mid\phi)$
注意，该项并不是求解 $\log \mathcal Q(z^{(n)} \mid \phi)$ 的结果，而是该结果的梯度。 $\mathcal Q(z^{(n)} \mid \phi)$ 是一个 描述概率的函数，因此它的值域是 $(0, 1)$ 。观察 $\log \mathcal Q(z^{(n)} \mid \phi)$ 在 $(0, 1)$ 范围内的结果以及梯度分别表示如下：

其中橙色线表示梯度，蓝色线表示数值结果。由于 从 $\mathcal Q(\mathcal Z \mid \phi)$ 中采样 $z$ 是纯随机采样，对应的结果 $\mathcal Q(z \mid \phi)$ 也必然是 $(0, 1)$ 范围内的随机结果。那么对于极小的 $\mathcal Q(z \mid \phi)$ 结果对应的梯度反而是极高的数值。因此，采集出的样本中会存在少数数值极高的结果，从而对 $\nabla_{\phi} \mathcal L(\phi)$ 的近似计算产生更大的误差。

本身通过蒙特卡洛方法求出的 $\nabla_{\phi} \mathcal L(\phi)$ 在梯度下降算法过程中就存在一定误差；如果 $\nabla_{\phi} \mathcal L(\phi)$ 也存在较大误差，这种误差叠加的结果自然使 $\mathcal Q(\mathcal Z \mid \phi)$ 的模型参数 $\phi$ 更加 难以保证其准确性。

至此，需要寻找方法，降低数据采样的高方差问题(Variance Reduction)。
本节将介绍通过重参数化技巧(Reparameterization Trick)来降低采样结果的高方差问题。

重参数化技巧

在对某概率分布 $\mathcal Q(\mathcal Z)$ 进行采样的过程中，如果直接从 $\mathcal Q(\mathcal Z)$ 中进行采样，可能出现高方差问题。

重参数化技巧的具体思想是：
已知条件：
随机变量 $z$ 服从概率分布 $\mathcal Q(z \mid \phi)$ 。

随机变量 $\epsilon$ 服从某一分布 $\mathcal P(\epsilon)$ ，并且 $\epsilon$ 与 $z$ 之间存在如下关系：
$\mathcal G (\epsilon,\mathcal X \mid \phi)$
此时，可以通过对概率分布 $\mathcal P(\epsilon)$ 进行采样，通过与 $\epsilon$ 在 $\mathcal P(\epsilon)$ 中的期望间接求解 $z$ 在概率分布 $\mathcal Q(z \mid \phi)$ 的期望结果。

示例：假设随机变量 $z$ 服从均值为 $\mu$ ，方差为 $\sigma^2$ 的高斯分布：
$\sim \mathcal N(\mu,\sigma^2)$
此时，想要求解上述概率分布下，关于 $z$ 的函数 $f (z)$ 的期望结果：
$\mathbb E_{\mathcal P(z)} [f(z)]$
此时，存在一个随机变量 $\epsilon$ ，该变量服从于均值为0，方差为1的高斯分布：
$\epsilon \sim \mathcal N(0,1)$
如何通过对 $\epsilon$ 进行采样从而对 $\mathbb E_{\mathcal P(z)}[f(z)]$ 进行求解？根据重参数化技巧，这里需要一个 $z$ 和 $\epsilon$ 之间的关联关系：
$\mathcal G(\epsilon) = \mu + \sigma \times \epsilon$

$\mathbb E_{\mathcal P(z)}[f(z)]$ 的求解过程如下：

将 $\mathbb E_{\mathcal P(z)}[f(z)]$ 展开为积分形式，并将 $\mathcal P(z)$ 的 概率密度函数带入公式中：
$\begin{aligned} \mathbb E_{\mathcal P(z)}[f(z)] & = \int_{z} \mathcal P(z) f(z) dz \\ & = \int_z \left(\frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(z - \mu)^2}{2\sigma^2}}\right) \cdot f(z) dz \end{aligned}$
将 $\mathcal G(\epsilon)$ 带入上式：
$\int_{\epsilon} \left(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(\mu + \sigma \cdot \epsilon - \mu)^2}{2\sigma^2}}\right) f \left[\mathcal G(\epsilon)\right] d[\mathcal G(\epsilon)]$
继续展开，得到如下结果：
$\begin{aligned} \mathbb E_{\mathcal P(z)}[f(z)] & = \int_{\epsilon} \left(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(\mu + \sigma \cdot \epsilon - \mu)^2}{2\sigma^2}}\right) f \left[\mathcal G(\epsilon)\right] \cdot \sigma d\epsilon \\ & = \int_{\epsilon} \frac{1}{\sqrt{2\pi}} e^{-\frac{\epsilon^2}{2}} f[\mathcal G(\epsilon)] d\epsilon \quad \left(\frac{1}{\sqrt{2\pi}} e^{-\frac{\epsilon^2}{2}} \to \mathcal N(0,1) \to \mathcal P(\epsilon)\right) \\ & = \int_{\epsilon} \mathcal P(\epsilon) f[\mathcal G(\epsilon)]d\epsilon \\ & = \mathbb E_{\mathcal P(\epsilon)} [f[\mathcal G(\epsilon)]] \end{aligned}$
至此，我们将 随机变量为 $z$ 的期望转化为随机变量为 $\epsilon$ 的期望形式。

更泛化地说，只要 $\mathcal Q(z)$ 和 $\mathcal P(\epsilon)$ 之间满足如下关系：
$\mathcal Q(z) = \int \delta[z - \mathcal G(\epsilon,\mathcal X \mid \phi)] \mathcal P(\epsilon) d\epsilon$
都可以实现：
$\mathbb E_{\mathcal Q(z)}[f(z)] = \mathbb E_{\mathcal P(\epsilon)}[f[\mathcal G(\epsilon,\mathcal X \mid \phi)]]$

基于重参数化技巧的求解过程

继续观察 $\nabla_{\phi} \mathcal L(\phi)$ ：
$\nabla_{\phi} \mathcal L(\phi) = \mathbb E_{\mathcal Q(\mathcal Z \mid \phi)} \left\{ \nabla_{\phi} \log \mathcal Q(\mathcal Z \mid \phi) \cdot \left[log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] \right\}$

假设存在 $\epsilon \sim \mathcal P(\epsilon)$ ，并且 $\mathcal Z$ 和 $\epsilon$ 满足：
$\mathcal Z = \mathcal G(\epsilon,\mathcal X \mid \phi)$
必然有：
概率密度积分~
$\begin{aligned} \int_{\mathcal Z} \mathcal Q(\mathcal Z \mid \phi) d\mathcal Z = \int_{\epsilon} \mathcal P(\epsilon) d\epsilon = 1 \end{aligned}$
从而有：
$|\mathcal Q(\mathcal Z \mid \phi) d\mathcal Z| = |\mathcal P(\epsilon) d\epsilon|$
将上述变换直接带入 $\nabla_{\phi} \mathcal L(\phi)$ 中：
$\begin{aligned} \nabla_{\phi} \mathcal L(\phi) & = \nabla_{\phi} \int_{\mathcal Z} \left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] \cdot \mathcal Q(\mathcal Z \mid \phi) d\mathcal Z \\ & = \nabla_{\phi} \int_{\mathcal Z} \left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] \cdot \mathcal P(\epsilon) d\epsilon \end{aligned}$
使用牛顿-莱布尼兹公式将 $\nabla_{\phi}$ 写入积分号中：
$\int_{\mathcal Z} \nabla_{\phi}\left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] \cdot \mathcal P(\epsilon) d\epsilon$
因为 $\nabla_{\phi}$ 是对 $\phi$ 求解积分，因此和 $\mathcal P(\epsilon)$ 无关。进而化简得：
$\mathbb E_{\mathcal P(\epsilon)} [\nabla_{\phi} (\log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi))]$
为了将 $\mathcal Z = \mathcal G(\epsilon,\mathcal X \mid \phi)$ 代入公式，通过链式求导法则，引入 $\mathcal Z$ ，对 $\nabla_{\phi}$ 进行重新表示：
$\mathbb E_{\mathcal P(\epsilon)} [\nabla_{\mathcal Z} (\log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)) \cdot \nabla_{\phi}\mathcal Z]$
最终将 $\mathcal Z = \mathcal G(\epsilon,\mathcal X \mid \phi)$ 代入上式，则有：
$\begin{aligned} \mathbb E_{\mathcal P(\epsilon)} [\nabla_{\mathcal Z} (\log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)) \cdot \nabla_{\phi}\mathcal G(\epsilon,\mathcal X \mid \phi) ] \end{aligned}$
至此，将最初始的基于 $\mathcal Q(\mathcal Z)$ 的期望转化为基于 $\mathcal P(\epsilon)$ 的期望。
具体的执行流程如下：
从概率分布 $\mathcal P(\epsilon)$ 中获取 $L$ 个样本：
$\epsilon^{(l)} \sim \mathcal P(\epsilon) \quad l = 1,2,\cdots,L$
对期望结果进行处理：
$\begin{aligned} & \mathbb E_{\mathcal P(\epsilon)} [\nabla_{\mathcal Z} (\log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)) \cdot \nabla_{\phi}\mathcal G(\epsilon,\mathcal X \mid \phi)] \\ & = \mathbb E_{\mathcal P(\epsilon)} \left[\left(\frac{\nabla_{\mathcal Z}P(\mathcal X,\mathcal Z)}{P(\mathcal X,\mathcal Z)} - \frac{\nabla_{\mathcal Z}\mathcal Q(\mathcal Z \mid \phi)}{Q(\mathcal Z \mid \phi)}\right) \cdot \nabla_{\phi}\mathcal G(\epsilon,\mathcal X \mid \phi)\right] \end{aligned}$
将 $\mathcal Z = \mathcal G(\epsilon,\mathcal X \mid \phi)$ 代入，此时整个期望中，就仅剩余 $\epsilon$ 一个变量。最后将 $\epsilon^{(l)}(l=1,2,\cdots,L)$ 代入， 使用蒙特卡洛方法求解均值近似期望结果 即可，最终近似求解 $\nabla_{\phi} \mathcal L(\phi)$ 。
从而继续使用随机梯度变分推断，使用梯度上升法求解概率分布 $\mathcal Q(\mathcal Z \mid \phi)$ 的最优参数 $\hat \phi$ ：
$\phi^{(t+1)} \gets \phi^{(t)} + \lambda^{(t)} \cdot \nabla_{\phi} \mathcal L(\phi)$

至此，变分推断部分的介绍结束。下一节将介绍马尔可夫链蒙特卡洛采样方法(Markov Chain Monte Carlo,MCMC)。

猜你喜欢

【BZOJ1063】【NOI2008】道路设计（动态规划）
RookeyFrame 字典新增和绑定
redis 为什么把简单的字符串设计成 SDS？
Linux——高效玩转命令行
国内外大学IP地址段
沭阳数字化城市管理平台促进城市通畅协调
C# 委托事件简单示例
姿态估计相比Mask-RCNN提高8.2%，上海交大卢策吾团队开源AlphaPose
看这片云，如何助力“江苏制造”
基本的mediaQuery写法,不复习又忘记了
BEVFormerV2：Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervisi
Wireshark非标准分析port无流量
《Hack与HHVM权威指南》——1.6.2 未决的类型
css三种基本选择器
第九十六章属性关键字 - ClientName

相关主题

机器学习——EM算法
李宏毅机器学习
机器学习-视频

zl程序教程