您现在的位置是：首页 > 硬件

当前栏目

机器学习笔记之支持向量机(三)模型求解

机器笔记学习模型支持向量求解

2023-09-11 14:15:53 时间

机器学习笔记之支持向量机——模型求解

引言

引言

上一节介绍了基于最大间隔分类器朴素思想产生的原问题转化为对偶问题的过程，本节将针对对偶问题进行求解。并介绍 强对偶关系需要满足的条件。

回顾：原问题转化为对偶问题的具体过程

在机器学习笔记之支持向量机(一)模型构建思路中介绍过，经过 函数间隔约束 的最大间隔分类器朴素思想表示如下：
$\begin{cases}\mathop{\min}\limits_{\mathcal W,b} \frac{1}{2} \mathcal W^{T}\mathcal W \\ s.t. \quad 1 - y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) \leq 0 \quad \forall (x^{(i)},y^{(i)}) \in Data \end{cases}$

该问题是一个包含 $N$ 个约束的凸优化问题，使用拉格朗日乘数法将 原问题转化为无约束原问题：
令拉格朗日函数为 $\mathcal L(\mathcal W,b,\lambda)$ ，表示如下：
$\mathcal L(\mathcal W,b,\lambda) = \frac{1}{2} \mathcal W^{T}\mathcal W + \sum_{i=1}^N \lambda^{(i)} \left[1 - y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right)\right]$
基于原问题的约束条件是不等式约束，则有：
$\lambda^{(i)}(i=1,2,\cdots,N) \geq 0$
至此，无约束原问题 表示如下：
$\begin{cases}\mathop{\min}\limits_{\mathcal W,b} \mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda) \\ s.t. \quad \lambda^{(i)} \geq 0 \quad (i=1,2,\cdots,N)\end{cases}$

假设直接对无约束原问题 进行求解，那么按照求解顺序需要先求解 $\mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda)$ 的结果，但是该式子中的变量 $\lambda$ 存在约束条件，因此，我们尝试先从无约束的 $\mathcal W,b$ 开始求解。这需要将 无约束原问题转化为对偶问题：
至此，对偶问题表示如下：
$\begin{cases} \mathop{\max}\limits_{\lambda}\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda) \\ s.t. \quad \lambda^{(i)} \geq 0 \quad (i=1,2,\cdots,N) \end{cases}$
在无约束条件的情况下，无约束原问题的目标函数与对偶问题的目标函数必然存在如下关系：
$\mathop{\max}\limits_{\lambda}\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda) \leq \mathop{\min}\limits_{\mathcal W,b}\mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda)$
并称之为弱对偶关系。与之对应的是强对偶关系：
$\mathop{\max}\limits_{\lambda}\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda) = \mathop{\min}\limits_{\mathcal W,b}\mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda)$
可以看出，强对偶关系是弱对偶关系的一种 特殊情况，弱对偶关系上升至强对偶关系需要满足什么条件？本节将详细介绍这个条件—— $K K T$ 条件。

由于无约束原问题满足 $K K T$ 条件，因此，顺利成章地将无约束问题转化为对偶问题。此时的 $\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda)$ 无约束条件限制，分别对 $\mathcal W,b$ 求解偏导，得到 仅关于变量 $\lambda$ 的拉格朗日函数：
这里将 $\max$ 和 $-\frac{1}{2}$ 合并为 $\min$ 和 $\frac{1}{2}$ ；
$\begin{cases}\mathop{\min}\limits_{\lambda} \frac{1}{2} \sum_{i=1}^{N}\sum_{j=1}^N \lambda^{(i)}\lambda^{(j)}y^{(i)}y^{(j)}\left({x^{(i)}}\right)^{T}x^{(j)} - \sum_{i=1}^N \lambda^{(i)} \\ s.t.\quad \begin{cases} \quad \lambda^{(i)} \geq 0 \\ \quad\quad \sum_{i=1}^N \lambda^{(i)}y^{(i)} = 0 \end{cases} \end{cases}$

模型求解

继续观察，本质上是仅关于 $\lambda$ 的包含两个约束条件的最小化问题。

其中，变量 $\lambda^{(i)},\lambda^{(j)} \in \{\lambda^{(1)},\lambda^{(2)},\cdots,\lambda^{(N)}\}$ ， $y^{(i)},y^{(j)} \in \{-1,1\}$ ，均为标量、常数； $\left({x^{(i)}}\right)^{T}x^{(j)}$ 可以写为：
$\left({x^{(i)}}\right)^{T}x^{(j)} = (x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)})\begin{pmatrix}x_1^{(j)} \\ x_2^{(j)} \\ \vdots \\ x_p^{(j)}\end{pmatrix} = x_1^{(i)}x_1^{(j)} + x_2^{(i)}x_2^{(j)} + \cdots + x_p^{(i)}x_p^{(j)}$
其结果也是一个标量、常数；因此 目标函数只包含 $\lambda$ 的一次项和二次项；
约束条件中变量是一次的，即仿射函数；且为不等式约束，实际上此时的优化问题依然是一个凸二次规划问题。和原问题相似，同样可以使用类似 $Q P$ 方法进行求解。

本节将使用 $K K T$ 条件求解最优模型以及最优超平面。

$K K T$ 条件介绍

$K K T$ 条件的作用：它是原问题、对偶问题之间具有强对偶关系的充分必要条件。
下面将进行论证：

场景描述

已知一个关于变量 $\mathcal X$ 的原问题表示如下：
$\begin{cases}\mathop{\min}\limits_{\mathcal X} f(\mathcal X) \\ s.t. \begin{cases} m_i(\mathcal X) \leq 0 \quad (i=1,2,\cdots,M) \\ n_j(\mathcal X) = 0 \quad (j=1,2,\cdots,N) \end{cases} \end{cases}$
观察发现，该原问题包含 $M + N$ 个约束条件：其中包含 $M$ 个不等式约束和 $N$ 个等式约束。

使用拉格朗日乘数法将原问题转化为无约束原问题。拉格朗日函数 $\mathcal L(\mathcal X ,\lambda,\eta)$ 表示如下：
$\mathcal L(\mathcal X ,\lambda,\eta) = f(\mathcal X) + \sum_{i=1}^M \lambda_im_i(\mathcal X) + \sum_{j=1}^N \eta_jn_j(\mathcal X)$
对应的无约束原问题表示如下：
$\begin{cases}\mathop{\min}\limits_{\mathcal X} \mathop{\max}\limits_{\lambda,\eta} \mathcal L(\mathcal X,\lambda,\eta) \\ s.t. \begin{cases}\lambda_i \geq 0 \quad (i=1,2,\cdots,M) \\ \eta_j = 0 \quad (j=1,2,\cdots,N)\end{cases} \end{cases}$

继续将它的对偶问题表示如下：
$\begin{cases}\mathop{\max}\limits_{\lambda,\eta} \mathop{\min}\limits_{\mathcal X} \mathcal L(\mathcal X,\lambda,\eta) \\ s.t. \begin{cases} \lambda_i \geq 0 \quad (i=1,2,\cdots,M) \\ \eta_j = 0 \quad (j=1,2,\cdots,N)\end{cases}\end{cases}$

论证过程

我们可以将无约束原问题和原问题一样，看做关于 $\mathcal X$ 的函数。即 $\lambda,\eta$ 已确定，使得 $\mathcal L(\mathcal X,\lambda,\eta)$ 结果最大的基础上，找到合适的 $\mathcal X^{*}$ ，使 $\mathop{\max}\limits_{\lambda,\eta}\mathcal L(\mathcal X,\lambda,\eta)$ 最小：
$f(\mathcal X) = \mathop{\max}\limits_{\lambda,\eta}\mathcal L(\mathcal X,\lambda,\eta) \\ f(\mathcal X^{*}) = \mathop{\min}\limits_{\mathcal X} f(\mathcal X)$
其中， $\mathcal X^{*}$ 表示 原问题的最优解。同理，我们同样可以将对偶问题看作关于 $\lambda,\eta$ 的函数，即： $\mathcal X$ 已确定，使得 $\mathcal L(\mathcal X,\lambda,\eta)$ 结果最小的基础上，找到合适的 $\lambda^{*},\eta^{*}$ ，使 $\mathop{\min}\limits_{\mathcal X}\mathcal L(\mathcal X,\lambda,\eta)$ 最大：
$g(\lambda,\eta) = \mathop{\min}\limits_{\mathcal X} \mathcal L(\mathcal X,\lambda,\eta) \\ g(\lambda^{*},\eta^{*}) = \mathop{\max}\limits_{\lambda,\eta}g(\lambda,\eta)$

假设对偶问题与原问题之间确定是强对偶关系，即求解 $\lambda^{*},\eta^{*}$ 与求解 $\mathcal X^{*}$ 等价。 $K K T$ 条件给出了 $\lambda^{*},\eta^{*}$ 与 $\mathcal X^{*}$ 的关系。

$K K T$ 条件(Karush-Kuhn-Tucker Conditions)可以包含三个部分：

可行域(约束条件)。在本场景中，分别表示原问题与对偶问题取最优解时的约束条件：
$\begin{cases}m_i(\mathcal X^{*}) \leq 0 \quad (i=1,2,\cdots,M) \\ n_j(\mathcal X^{*}) = 0 \quad (j=1,2,\cdots,N) \\ \lambda ^{*} \leq 0 \end{cases}$
互补松弛原则(Complementary Slackness)
通过基于强对偶关系成立的条件下，推导互补松弛原则的具体格式：
- 由于强对偶关系成立情况下原问题最优解与对偶问题最优解等价。即：
  $\mathop{\max}\limits_{\lambda,\eta} g(\lambda,\eta) = \mathop{\max}\limits_{\lambda,\eta} \mathop{\min}\limits_{\mathcal X} \mathcal L(\mathcal X,\lambda,\eta) = \mathop{\min}\limits_{\mathcal X} \mathop{\max}\limits_{\lambda,\eta} \mathcal L(\mathcal X,\lambda,\eta) = \mathop{\min}\limits_{\mathcal X} f(\mathcal X)$
- 假设存在一组解 $\lambda^{*},\eta^{*}$ ，使得：
  $\mathcal L(\mathcal X,\lambda^{*},\eta^{*}) = \mathop{\max}\limits_{\lambda,\eta} \mathcal L(\mathcal X,\lambda,\eta)$
  与此同时：
  $\mathop{\min}\limits_{\mathcal X} \mathop{\max}\limits_{\lambda,\eta} \mathcal L(\mathcal X,\lambda,\eta) = \mathop{\min}\limits_{\mathcal X} \mathcal L(\mathcal X,\lambda^{*},\eta^{*})$
- 基于 $\mathop{\min}\limits_{\mathcal X} \mathcal L(\mathcal X,\lambda^{*},\eta^{*})$ 的最小值性质，则有：
  $\mathop{\min}\limits_{\mathcal X}\mathcal L(\mathcal X,\lambda^{*},\eta^{*}) \leq \mathcal L(\mathcal X,\lambda^{*},\eta^{*})$
  于此同时，必然存在：
  $\mathcal X^{* }$ 暂时理解为 $\mathcal X$ 可以取到的任意一个值。
  $\mathop{\min}\limits_{\mathcal X}\mathcal L(\mathcal X,\lambda^{*},\eta^{*}) \leq \mathcal L(\mathcal X^{*},\lambda^{*},\eta^{*})$
- 将 $\mathcal L(\mathcal X^{*},\lambda^{*},\eta^{*})$ 展开，有：
  $\mathcal L(\mathcal X^{*},\lambda^{*},\eta^{*}) = f(\mathcal X^{*}) + \sum_{i=1}^{M} \lambda_i^{*}m_i(\mathcal X) + \sum_{j=1}^N\eta_j^{*}n_j(\mathcal X)$
- 基于可行域条件： $n_j(\mathcal X^{*}) = 0 \quad (j=1,2,\cdots,N)$ ，则有：
  $\mathcal L(\mathcal X^{*},\lambda^{*},\eta^{*}) = f(\mathcal X^{*}) + \sum_{i=1}^{M} \lambda_i^{*}m_i(\mathcal X)$
- 又因为可行域条件： $\begin{cases}m_i(\mathcal X^{*}) \leq 0 \quad (i=1,2,\cdots,M) \\ \lambda ^{*} \leq 0\end{cases}$ ，因此则有：
  两项异号，其结果有上界0。
  $\sum_{i=1}^{M} \lambda_i^{*}m_i(\mathcal X) \leq 0$
  从而有：
  $\mathcal L(\mathcal X^{*},\lambda^{*},\eta^{*}) = f(\mathcal X^{*}) + \sum_{i=1}^{M} \lambda_i^{*}m_i(\mathcal X) \leq f(\mathcal X^{*})$
观察上述推导过程，发现：满足什么条件才能将最后的 $\leq$ 换成 $=$ ，成为真正的强对偶关系？
其核心原因在于：
$\sum_{i=1}^{M} \lambda_i^{*}m_i(\mathcal X) \leq 0$
如果将该式改为： $\sum_{i=1}^{M} \lambda_i^{*}m_i(\mathcal X) = 0$ ，此时就成为真正的强对偶关系。我们称该条件为互补松弛原则。
梯度为0：
观察上述推导过程，发现还有一个 $\leq$ 没有解决：
$\mathop{\min}\limits_{\mathcal X}\mathcal L(\mathcal X,\lambda^{*},\eta^{*}) \leq \mathcal L(\mathcal X^{*},\lambda^{*},\eta^{*})$
该小于号转换为等号需要满足什么条件？
$\mathcal X^{*}$ 是 $\mathcal L(\mathcal X,\lambda^{*},\eta^{*})$ 的最优解。即：
$\frac{\partial \mathcal L(\mathcal X,\lambda^{*},\eta^{*})}{\partial \mathcal X} = 0 |_{\mathcal X = \mathcal X^{*}}$

整理，互补松弛原则共包含3个部分，5个条件：

可行域(约束条件)；
$m_i(\mathcal X^*)\leq 0;n_j(\mathcal X^*) \leq 0;\lambda^* \geq 0$
互补松弛原则；
$\lambda_im_i = 0$
梯度为0；
$\frac{\partial \mathcal L(\mathcal X,\lambda^{*},\eta^{*})}{\partial \mathcal X} = 0 |_{\mathcal X = \mathcal X^{*}}$

利用 $K K T$ 条件求解最优参数；

结合最大间隔分类器产生的原问题与对偶问题，我们列出满足强对偶关系需要的 $K K T$ 条件：

可行域(约束条件)：
$y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) \leq 0 \quad (i=1,2,\cdots,N)\\ \lambda^{(i)} \geq 0 \quad (i=1,2,\cdots,N)\\ \sum_{i=1}^N \lambda^{(i)}y^{(i)} = 0$
拉格朗日函数 $\mathcal L(\mathcal W,b,\lambda)$ 对原问题、对偶问题对应变量梯度为0：
$\frac{\partial \mathcal L(\mathcal W,b,\lambda)}{\partial \mathcal W} \triangleq 0 \\ \frac{\partial \mathcal L(\mathcal W,b,\lambda)}{\partial b} \triangleq 0 \\ \frac{\partial \mathcal L(\mathcal W,b,\lambda)}{\partial \lambda} \triangleq 0$
互补松弛原则：
$\lambda^{(i)}\left[1 - y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right)\right] = 0$

这里观察互补松弛原则在求解最优模型中起到的作用：
首先观察 $\left[1 - y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right)\right]$ 具有什么实际意义？
在函数间隔约束部分，第一次产生这种格式。当时的设定是：
$\mathop{\min}\limits_{x^{(i)} \in \mathcal X} y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) = 1$
基于该式，我们可以这样认定：满足 $y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) = 1$ 的样本点是 $x^{(i)},y^{(i)})$ 是在所有样本均正确分类的前提下，与分类直线(超平面)距离最近的点。
真实情况下，基于样本规模的大小，可能存在若干个距离相同且均最近的若干个样本点；但不可否认的是：至少包含一个。因为只要存在样本，必定存在距离最小的一个。

这些样本点，它具有什么样的特殊性？观察互补松弛原则，可以发现一旦：
$y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) = 0$
那么 互补松弛原则中对应的 $\lambda^{(i)}$ 可以不为0。基于该思路，可以继续引出两条推测：

$\lambda^{(i)}$ 一旦不为0，那么 $y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) = 0$ 必然成立，它对应的样本点 $\left(x^{(i)},y^{(i)}\right)$ 一定到分类直线(超平面) 距离最近；
相反，如果不是距离分类直线(超平面) 最近的样本点，那么 $y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) < 0$ ，它对应的 $\lambda^{(i)} = 0$ 必然成立。

假设存在某样本点 $x^{(k)},y^{(k)})$ 使得：
$y^{(k)}\left(\mathcal W^{T}x^{(k)} + b\right) = 0$
由于最优解 $\mathcal W^{*}$ 通过 $\frac{\partial \mathcal L(\mathcal W,b,\lambda)}{\partial \mathcal W} \triangleq 0$ 求解最优值为：
上一节的推论结果传送门
$\mathcal W^{*} = \sum_{i=1}^N \lambda^{(i)}y^{(i)}x^{(i)}$
最后，将 $\mathcal W^{*}$ 带入 $y^{(k)}\left(\mathcal W^{T}x^{(k)} + b\right) = 0$ 中，求出最优解 $b^{*}$ ：
$y^{(k)}\left(\mathcal W^{T}x^{(k)} + b\right) = 1$
由于 $y^{(k)} \in \{-1,1\}$ ，左右两边同乘 $y^{(k)}$ ，等式左边 $\left(y^{(k)}\right)^2 = 1$ 恒成立，省略；等式右侧剩余一个 $y^{(k)}$ ：
$\mathcal W^{T}x^{(k)} + b = y^{(k)}$
最终 $b^{*}$ 结果表示如下：
$\begin{aligned} b^* & = y^{(k)} - \left(\mathcal W^* \right)^{T} x^{(k)} \\ & = y^{(k)} - \sum_{i=1}^N \left[\lambda^{(i)}y^{(i)}\left(x^{(i)}\right)^{T}\right]x^{(k)} \end{aligned}$

至此，我们得到了构成分类直线(超平面)的两个参数： $\mathcal W^{*},b^*$ ；最终 分类直线(超平面) 的表达式为：
$(\mathcal W^*)^{T}\mathcal X + b^* = 0$
对应模型表示为：
$f(\mathcal W,b) = sign\left[(\mathcal W^*)^{T}\mathcal X + b^*\right]$

至此，硬间隔 $S V M$ 最优参数求解过程结束。下一节将介绍软间隔 $S V M$ 。

猜你喜欢

Java实现蓝桥杯历届试题剪格子
保险配置原则
python使用requests发送application/json报文数据
ABAP Decimal byte
.NET 环境中使用RabbitMQ
nova boot instance call flow
SCP 命令详解
C# 前台线程与后台线程的区别和联系
理解并自定义HttpHandler
D7 D2007 XE10.1 都支持的字符分隔函数
使用 RxJs 实现一个支持 infinite scroll 的 Angular Component
Spark中常用的算法
python中5个json库的速度对比

相关主题

机器学习-SVM
机器学习笔记
机器学习笔记（一）
【机器学习】2、SVM
机器学习 — 推荐系统
机器学习-归一化
入门机器学习

zl程序教程

当前栏目

机器学习笔记之支持向量机(三)模型求解

机器学习笔记之支持向量机——模型求解

引言

回顾：原问题转化为对偶问题的具体过程

模型求解

$K K T$ 条件介绍

场景描述

论证过程

利用 $K K T$ 条件求解最优参数；

相关文章

当前栏目

机器学习笔记之支持向量机(三)模型求解

机器学习笔记之支持向量机——模型求解

引言

回顾：原问题转化为对偶问题的具体过程

模型求解

K K T KKT KKT条件介绍

场景描述

论证过程

利用 K K T KKT KKT条件求解最优参数；

相关文章

$K K T$ 条件介绍

利用 $K K T$ 条件求解最优参数；