您现在的位置是：首页 > 硬件

当前栏目

机器学习笔记之高斯过程(四)高斯过程回归——基于函数空间角度的预测任务求解

机器笔记学习函数基于过程空间任务

2023-09-11 14:15:53 时间

机器学习笔记之高斯过程——高斯过程回归[基于函数空间角度的预测任务求解]

引言

引言

上一节介绍了高斯过程回归从权重空间(Weight-Space)视角向函数空间(Function-Space)视角的转化过程。本节将介绍基于函数空间视角，对预测任务(Prediction)进行求解。

回顾：基于函数空间视角的表达

场景构建

给定数据集合 $Data = \{(x^{(i)},y^{(i)})\}_{i=1}^N$ ，其中样本集合 $\mathcal X$ ，标签集合 $\mathcal Y$ 表示如下：
$\begin{aligned} \mathcal X & = (x^{(1)},x^{(2)},\cdots,x^{(N)})_{N \times p}^T \quad x^{(i)} \in \mathbb R^p;i=1,\cdots,N \\ \mathcal Y & = (y^{(1)},y^{(2)},\cdots,y^{(N)})_{N \times 1}^T \quad y^{(i)} \in \mathbb R;i=1,2,\cdots,N \end{aligned}$
具体任务是非线性回归，需要将样本的特征空间由当前的低维空间 $p$ 通过非线性转换转移至高维空间 $\gg p)$ ：
$\mathcal X \in \mathbb R^p \to \phi(\mathcal X) \in \mathcal R^q$

权重空间视角(Weight-Space)观察预测任务

权重空间视角的本质是模型学习模型参数 $\mathcal W$ 本身，基于 $\mathcal W$ 的后验概率分布 $\mathcal P(\mathcal W \mid Data)$ 来求解给定未知样本 $\hat x$ 的预测标签结果 $\hat y$ ：
具体推导过程详见贝叶斯线性回归——推断任务推导过程
$\begin{aligned} \mathcal P(\mathcal W \mid Data) \propto \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) \\ \mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \quad \begin{cases} \mu_{\mathcal W} = \frac{\mathcal A^{-1}\mathcal X^T\mathcal Y}{\sigma^2} \\ \Sigma_{\mathcal W} = \mathcal A^{-1} \\ \mathcal A = \frac{\mathcal X^T\mathcal X}{\sigma^2} + [\Sigma_{prior}^{-1}]_{p \times p} \end{cases} \end{aligned}$

其中 $\sigma^2$ 表示线性模型 $\mathcal Y = \mathcal W^T \mathcal X + \epsilon \quad \epsilon \sim \mathcal N(0,\sigma^2)$ 中高斯噪声 $\epsilon$ 的方差(一维随机变量)；
$\Sigma_{prior}$ 表示 $\mathcal W$ 的先验概率分布 $\mathcal P(\mathcal W) \sim \mathcal N(0,\Sigma_{prior})$ 的协方差矩阵。

此时，如果针对非线性回归任务，基于 $\mathcal X \to \phi(\mathcal X)$ ，对应的后验概率分布跟着发生变化：
注意的点：先验分布的协方差矩阵 $\Sigma_{prior}$ 也跟着变化为 $\times q$ .
$\mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \quad \begin{cases} \mu_{\mathcal W} = \frac{\mathcal A^{-1}[\phi(\mathcal X)]^T \cdot \mathcal Y}{\sigma^2} \\ \Sigma_{\mathcal W} = \mathcal A^{-1} \\ \mathcal A = \frac{[\phi(\mathcal X)]^T\phi(\mathcal X)}{\sigma^2} + [\Sigma_{prior}]_{q \times q} \end{cases}$
当后验概率分布 $\mathcal P(\mathcal W \mid Data)$ 求解结束后，对给定未知样本 $\hat x$ 进行预测：
该公式相关参考：高斯分布相关定理
$\begin{aligned} \mathcal P(\hat y \mid \hat x,Data) & = \int_{\mathcal W \mid Data} \mathcal P(\hat y \mid \mathcal W,\hat x) \cdot \mathcal P(\mathcal W \mid Data) d \mathcal W \\ & = \mathcal N([\phi(\hat x)]^T\mathcal W,\sigma^2) \cdot \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \\ & \sim \mathcal N \left[[\phi(\hat x)]^T \mu_{\mathcal W},[\phi(\hat x)]^T \cdot \mathcal \Sigma_{\mathcal W} \cdot \phi(\hat x) + \sigma^2\right] \\ & = \mathcal N \left[[\phi(\hat x)]^T \left(\frac{\mathcal A^{-1} [\phi(\mathcal X)]^T\mathcal Y}{\sigma^2}\right),[\phi(\hat x)]^T \mathcal A^{-1} \cdot \phi(\hat x) + \sigma^2\right] \end{aligned}$

从权重空间视角(Weight-Space)到函数空间视角(Function-Space)的过渡

首先，引入非线性转换函数 $\phi(\cdot)$ 本身求解是非常复杂的，并且上述公式中的 $\phi(\cdot)$ 均以内积的形式出现。因而尝试找到一款函数，使其 直接表示 $\phi(\cdot)$ 的内积结果，从而减少大量运算：
$\mathcal K(x^{(i)},x^{(j)}) = [\phi(x^{(i)})]^T \Sigma_{prior} \phi(x^{(j)})$
并且 $\mathcal K(x^{(i)},x^{(j)})$ 是核函数(Kernal Function)。从函数空间视角观察，可以将核函数表示为如下形式：

关于 $\mathcal K(x^{(i)},x^{(j)})$ 是核函数的充分性证明见高斯过程回归——权重空间角度、必要性证明见高斯过程回归——函数空间角度
$\mathbb E[f(x^{(i)})],\mathbb E[f(x^{(j)})]= 0$ 是因为 $f(x^{(i)}) = [x^{(i)}]^T \mathcal W + \epsilon$ ,因而 $f(x^{(i)}) \sim \mathcal N([x^{(i)}]^T\mathcal W + 0,\sigma^2)$

$\begin{aligned} \mathcal K(x^{(i)},x^{(j)}) & = [\phi(x^{(i)})]^T \cdot \mathbb E[\mathcal W \cdot \mathcal W^T] \cdot \phi(x^{(j)}) \\ & = \mathbb E \left\{[\phi(x^{(i)})]^T \mathcal W \cdot [\phi(x^{(j)})]^T \mathcal W\right\} \\ & = \mathbb E \left\{\left[f(x^{(i)}) - \mathbb E[f(x^{(i)})]\right] \cdot \left[f(x^{(j)}) - \mathbb E[f(x^{(j)})]\right]\right\} \\ & = Cov \left[f(x^{(i)}),f(x^{(j)})\right] \end{aligned}$
发现，核函数 $\mathcal K(x^{(i)},x^{(j)})$ 是 $f(x^{(i)}),f(x^{(j)})$ 的协方差结果。因此一个想法是：直接将 $f (x)$ 看作随机变量，用 $f (x)$ 来表示后验概率分布和预测分布。
但 $f (x)$ 并不是一个随机变量，而是基于 $p$ 维实数域的随机变量集合：
$f(x^{(i)}) = \mathcal W^T \phi(x^{(i)}) = [\phi(x^{(i)})]^T\mathcal W \quad x^{(i)} \in \mathcal X$
因而基于 $f (x)$ 的预测任务表达式如下：
$\mathcal P(\hat y \mid Data,\hat x) = \int_{f(\mathcal X)} \mathcal P(\hat y \mid f(\mathcal X),\hat x) \cdot \mathcal P[f(\mathcal X) \mid Data] df(\mathcal X)$

基于函数空间角度的预测任务求解

随机变量集合 $f(\mathcal X)$ 是一个高斯过程，并且它服从高斯分布：
$\{f(\mathcal X)\}_{\mathcal X \in \mathbb R^p} \sim \mathcal N [\mu(\mathcal X),\mathcal K(\mathcal X,\mathcal X)]$
其中 $m(\mathcal X)$ 表示均值函数(Mean-Function)， $\mathcal K(\mathcal X,\mathcal X)$ 并非表示某一项，而是整个核矩阵(Kernal Matrix)：
$\mathcal K(\mathcal X,\mathcal X) = \begin{bmatrix} \mathcal K(x^{(1)},x^{(1)}),\mathcal K(x^{(1)},x^{(2)}),\cdots,\mathcal K(x^{(1)},x^{(N)}) \\ \mathcal K(x^{(2)},x^{(1)}),\mathcal K(x^{(2)},x^{(2)}),\cdots,\mathcal K(x^{(2)},x^{(N)}) \\ \vdots \\ \mathcal K(x^{(N)},x^{(1)}),\mathcal K(x^{(N)},x^{(2)}),\cdots,\mathcal K(x^{(N)},x^{(N)}) \\ \end{bmatrix}_{N \times N}$
因而对应标签向量 $\mathcal Y$ 表示如下：
$\mathcal Y = f(\mathcal X) + \epsilon \sim \mathcal N[\mu(\mathcal X),\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I_{N \times N}]$

此时，已知一个新样本集合 $\mathcal X_* = (x_*^{(1)},x_*^{(2)},\cdots,x_*^{(\mathcal M)})_{\mathcal M \times p}^T$ ，那么预测标签 $\mathcal Y_* = f(\mathcal X_*) + \epsilon$ 。首先，针对标签集合 $\mathcal Y$ 与无高斯噪声结果 $f(\mathcal X_*)$ 的联合概率分布 $\mathcal P \left[f(\mathcal X_*),\mathcal Y \mid \mathcal X ,\mathcal X_*\right]$ 表示如下：
$\begin{bmatrix} \mathcal Y \\ \quad \\ f(\mathcal X_*) \end{bmatrix}_{(N+\mathcal M) \times 1} \sim \mathcal N \left\{\begin{bmatrix} \mu(\mathcal X) \\ \quad \\ \mu(\mathcal X_*) \end{bmatrix},\begin{bmatrix}\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I_{N \times N},\mathcal K(\mathcal X,\mathcal X_*)_{N \times \mathcal M} \\ \quad \\ \mathcal K(\mathcal X_*,\mathcal X)_{\mathcal M \times N} \quad\quad \mathcal K(\mathcal X_*,\mathcal X_*)_{\mathcal M \times \mathcal M}\end{bmatrix}_{(N+\mathcal M) \times (N+\mathcal M)}\right\}$

此时就变成了已知联合概率分布，求解条件概率分布 $\mathcal P \left[f(\mathcal X_*) \mid Data,\mathcal X_*\right] = \mathcal P\left[ f(\mathcal X_*) \mid \mathcal Y,\mathcal X,\mathcal X_*\right]$ 的形式。
这里用到了基于高斯分布的推断任务——已知联合概率分布求解条件概率分布的相关内容，这里就不推导了。

假设条件概率分布的高斯分布形式为： $\mathcal P\left[ f(\mathcal X_*) \mid \mathcal Y,\mathcal X,\mathcal X_*\right]\mathcal \sim N(\mu^*,\Sigma^*)$ ，那么 $\mu^*,\Sigma^*$ 分别表示如下：
$\begin{cases} \mu^* = \mathcal K(\mathcal X_*,\mathcal X) \cdot [\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I]^{-1}[\mathcal Y - \mu(\mathcal X)] + \mu(\mathcal X_*) \\ \Sigma^* = \mathcal K(\mathcal X_*,\mathcal X_*) - \mathcal K(\mathcal X_*,\mathcal X)[\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I]^{-1} \mathcal K(\mathcal X,\mathcal X_*) \end{cases}$

此时 $f(\mathcal X_*)$ 的条件/后验概率分布已经求解，但此时是无高斯噪声状态，需要将高斯噪声加回去。那么关于 $\mathcal Y_*$ 的后验 $\mathcal P(\mathcal Y_* \mid Data,\mathcal X_*)$ 可表示为：
$\begin{aligned} \mathcal Y_* & = f(\mathcal X_*) + \epsilon \\ \mathcal P(\mathcal Y_* \mid Data ,\mathcal X_*) & \sim \mathcal N(\mu_{\mathcal Y}^*,\Sigma_{\mathcal Y}^*) \begin{cases} \mu_{\mathcal Y}^* = \mu^* + 0 = \mu^* \\ \Sigma_{\mathcal Y}^* = \Sigma^* + \sigma^2 \mathcal I_{\mathcal M \times \mathcal M} \end{cases} \end{aligned}$

实际上，使用函数空间角度求解预测任务相比于权重空间角度求解要简单一些。由于将随机变量集合设定为高斯过程，自然不会受到 $\phi(\cdot)$ 的影响；并且它不需要求解模型参数 $\mathcal W$ 的后验概率，只需要通过推断对预测任务进行处理即可。

至此，高斯过程部分介绍结束，在后续会将高斯过程与贝叶斯线性回归相关符号进行检查和修正。

猜你喜欢

HP-Socket v3.2.2
Java实现蓝桥杯历届试题约数倍数选卡片
[Unit Testing] Angular Test component with required
11
你知道TCP协议、IP协议、HTTP协议分别在哪一层吗？
Redis源码之ZipList压缩列表
Win10 计算机扩展显示器闪黑屏
smarty 对数据库的简单操作。
Deep Learning（深度学习）网络资源
LVGL 8.2 Simple Menu with root button
[Node.js] Creating Demo APIs with json-server
CV之NS之VGG16：基于TF Slim库利用VGG16算法的预训练模型实现七种不同快速图像风格迁移设计(cubist/denoised_starry/mosaic/scream/wave)案例
ASP.NET Web API中的Controller
简明 Vim 练级攻略
【Python算法】实验5-计算中值及分治技术
如何使用 jMeter Parallel Controller - 并行控制器以及一些常犯的错误
矩阵管理——本质是职能分工，例如所有部门都执行财务部门制定的财务制度而不会各自为政

相关主题

机器学习
机器学习笔记
机器学习——决策树
[机器学习] 集成学习
机器学习之线性回归
【机器学习】2、SVM
Python 7步机器学习

zl程序教程