您现在的位置是：首页 > 硬件

当前栏目

机器学习笔记之谱聚类(三)模型的矩阵形式转化

机器笔记学习模型矩阵转化聚类形式

2023-09-11 14:15:53 时间

机器学习笔记之谱聚类——模型的矩阵形式转化

引言

引言

上一节针对 $\text{k-Means}$ 算法的缺陷，介绍了谱聚类( $\text{Spectral Clustering}$ )的结构描述以及目标函数。本节将目标函数转化成矩阵形式，并引出拉普拉斯矩阵。

回顾：谱聚类——目标函数表示

谱聚类关于处理聚类任务的朴素思想是：通过对样本的合适划分，使样本的划分代价最小。假设一个样本集合 $\mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\}$ ，它对应的图结构描述如下：
$\mathcal G = \{\mathcal V,\mathcal E\}$
其中 $\mathcal V$ 表示结点集合，结点数量与样本数量相同；而边集合 $\mathcal E$ 可视作一个权重矩阵，矩阵中的元素表示结点之间的关联关系：
$\begin{aligned} \mathcal V & = \{v^{(1)},v^{(2)},\cdots,v^{(N)}\} \\ \mathcal E & \Rightarrow \mathcal W = [\mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}]_{N \times N} \end{aligned}$
而结点 $v^{(i)},v^{(j)}$ 之间的关联关系 $\mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}$ 通常使用样本之间的核函数( $\text{Kernel Function}$ )表示。这里以高斯核函数为例：
$\mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}} = \kappa(x^{(i)},x^{(j)}) = \exp \left\{- \frac{||x^{(i)} - x^{(j)}||_2^2}{2\sigma^2}\right\} \quad \text{assert} \left\langle v^{(i)},v^{(j)}\right\rangle \in \mathcal E$
假设使用规则将图 $\mathcal G$ 划分成 $\mathcal K$ 个子图，各子图的结点集合分别表示为： $\{\mathcal A_1,\mathcal A_2,\cdots,\mathcal A_{\mathcal K}\}$ ，并且有：
$\begin{cases} \mathcal V = \mathcal A_1 \cup \mathcal A_2 \cup \cdots \cup \mathcal A_{\mathcal K} \\ \mathcal A_i \cap \mathcal A_j = \phi \quad \forall i,j \in \{1,2,\cdots,\mathcal K\} \end{cases}$
至此，在执行划分后关于结点集合 $\mathcal V$ 的代价函数 $\text{Cut}(\mathcal V)$ 可表示为：
其中 $\bar {\mathcal A_k}$ 表示 $\mathcal A_k$ 的补集。
$\begin{aligned} \text{Cut}(\mathcal V) & = \text{Cut}(\mathcal A_1,\mathcal A_2,\cdots,\mathcal A_{\mathcal K}) \\ & = \sum_{k=1}^{\mathcal K} \psi(\mathcal A_k,\bar {\mathcal A_k}) \\ & = \sum_{k=1}^{\mathcal K} \sum_{j \neq k}^{\mathcal K} \psi(\mathcal A_k,\mathcal A_j) \end{aligned}$
最后对 $\psi(\mathcal A_k,\mathcal A_j)$ 进行标准化后，作为图划分的目标函数：
$\begin{cases} \text{Normalized-Cut}(\mathcal V) = \sum_{k=1}^{\mathcal K} \frac{\psi(\mathcal A_k,\bar {\mathcal A_k})}{\text{degree}(\mathcal A_k)} \\ \text{degree}(\mathcal A_k) = \sum_{v^{(i)} \in \mathcal A_k} \sum_{j=1}^{N} \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}} \end{cases}$
最终将切分的选择问题转化为数学中的优化问题：
$\mathop{\min}\limits_{\{\mathcal A_k\}_{k=1}^{\mathcal K}} \text{Normalized-Cut}(\mathcal V)$

引入指示向量

为了能够更方便地对优化问题进行求解，通常将优化函数的连加形式转化为矩阵的乘法形式。首先观察 $\{\mathcal A_k\}_{k=1}^{\mathcal K}$ ，它表示结点子集的集合：
$\{\mathcal A_k\}_{k=1}^{\mathcal K} \Rightarrow \{\mathcal A_1,\mathcal A_2,\cdots,\mathcal A_{\mathcal K}\}$
将这个 $\{\mathcal A_k\}_{k=1}^{\mathcal K}$ 描述为指示向量( $\text{Indicator Vector}$ )的形式：

所谓‘指示向量’ $y^{(i)}(i=1,2,\cdots,N)$ ，就是描述结点 $v^{(i)}$ 位于结点子集 $\mathcal A_k(k=1,2,\cdots,\mathcal K)$ 的信息。使用 $\text{one-hot}$ 向量进行表达。
例如某结点 $v^{(i)}$ 对应的指示向量 $y^{(i)}$ 结果为 $\underbrace{(1,0,\cdots,0)}_{\mathcal K个元素}$ ,那么该向量表示为 $v^{(i)}$ 属于 $\mathcal A_1$ 结点子集。随着划分结点子集数量的变化， $\text{one-hot}$ 向量的长度也随之发生变化。
$\begin{cases} y^{(i)} \in \{0,1\}^{\mathcal K} \\ \sum_{k=1}^{\mathcal K} y_{v^{(i)} \in \mathcal A_{k}} = 1 \end{cases}$

至此，使用一个 $\mathcal K$ 维的 $\text{one-hot}$ 向量表示样本 $x^{(i)}$ 对应结点的归属信息，对于整个样本集合 $\mathcal X$ ，对应的归属信息 $\mathcal Y$ 可表示为：
$\begin{aligned} \mathcal Y & = (y^{(1)},y^{(2)},\cdots,y^{(N)})^T \\ & = \begin{bmatrix} y_1^{(1)},y_2^{(1)},\cdots,y_{\mathcal K}^{(1)} \\ y_1^{(2)},y_2^{(2)},\cdots,y_{\mathcal K}^{(2)} \\ \vdots \\ y_1^{(N)},y_2^{(N)},\cdots,y_{\mathcal K}^{(N)} \end{bmatrix}_{N \times \mathcal K} \end{aligned}$
最终关于优化问题可转化为如下形式：
$\hat {\mathcal Y} = \mathop{\arg\min}\limits_{\mathcal Y} \text{Normalized-Cut}(\mathcal V)$

优化问题的化简过程

小插曲：观察 $\text{Normalize-Cut}(\mathcal V)$

对于 $\text{Normalize-Cut}(\mathcal V)$ ：
$\begin{aligned} \text{Normalize-Cut}(\mathcal V) & = \sum_{k=1}^{\mathcal K} \frac{\psi(\mathcal A_k,\bar {\mathcal A_k})}{\text{degree}(\mathcal A_k)} \\ & = \sum_{k=1}^{\mathcal K} \frac{\sum_{m \neq k} \sum_{v^{(i)} \in \mathcal A_k}\sum_{v^{(j)} \in\mathcal A_m} \mathcal W_{v^{(i)}\Leftrightarrow v^{(j)}}}{\sum_{v^{(i)} \in \mathcal A_k} \sum_{j=1}^{N} \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}} \\ & = \sum_{k=1}^{\mathcal K} \sum_{v^{(i)} \in \mathcal A_k} \frac{\sum_{m \neq k}\sum_{v^{(j)} \in \mathcal A_m} \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}}{\sum_{j=1}^N \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}} \end{aligned}$
观察展开项，可以发现项 $\frac{\sum_{m \neq k}\sum_{v^{(j)} \in \mathcal A_m} \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}}{\sum_{j=1}^N \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}} \leq 1$ 恒成立。并在当前结点子集 $\mathcal A_k$ 中只有 $v^{(i)}$ 一个结点时取等。

化简过程

将 $\text{Normalize-Cut}(\mathcal V)$ 表示成矩阵运算的形式。这里将 $\sum_{k=1}^{\mathcal K} \frac{\psi(\mathcal A_k,\bar {\mathcal A_k})}{\text{degree}(\mathcal A_k)}$ 中的每一项看作是某对角矩阵的主对角线元素，通过对该矩阵求迹的方式对 $\text{Normalize-Cut}(\mathcal V)$ 进行表示：
需要注意的是，矩阵的秩 $(\text{Rank})$ 和矩阵的迹 $(\text{Trace})$ 不是一个东西，矩阵的秩表示对角阵中非零元素的数目;而迹表示对角阵元素的和。
$\begin{aligned} \text{Normalize-Cut}(\mathcal V) & = \sum_{k=1}^{\mathcal K} \frac{\psi(\mathcal A_k,\bar {\mathcal A_k})}{\text{degree}(\mathcal A_k)} \\ & = \text{tr}\left\{\begin{bmatrix} \frac{\psi(\mathcal A_1,\bar {\mathcal A_1})}{\text{degree}(\mathcal A_1)} & & & \\ & \frac{\psi(\mathcal A_2,\bar {\mathcal A_2})}{\text{degree}(\mathcal A_2)} & & \\ & & \ddots&\\ & & &\frac{\psi(\mathcal A_{\mathcal K},\bar {\mathcal A_{\mathcal K}})}{\text{degree}(\mathcal A_{\mathcal K})} \end{bmatrix}_{\mathcal K \times \mathcal K}\right\} \end{aligned}$
可以继续将上述矩阵进行分解，分解成两个对角阵相乘的形式：

关于元素 $\frac{1}{\text{degree}(\mathcal A_{k})}(k=1,2,\cdots,\mathcal K)$ 的矩阵，直接使用逆矩阵的形式表示。
为节省空间， $\text{Normalize-Cut}(\mathcal V)$ 直接用 $\mathcal I$ 进行表示。
$\begin{aligned} \mathcal I & = \text{tr}\left\{\underbrace{\begin{bmatrix} \psi(\mathcal A_1,\bar {\mathcal A_1}) & & & \\ & \psi(\mathcal A_2,\bar {\mathcal A_2}) & & \\ & & \ddots&\\ & & & \psi(\mathcal A_{\mathcal K},\bar {\mathcal A_{\mathcal K}}) \end{bmatrix}_{\mathcal K \times \mathcal K}}_{记作\mathcal O} \cdot \underbrace{\begin{bmatrix} \text{degree}(\mathcal A_1) & & & \\ & \text{degree}(\mathcal A_2) & & \\ & & \ddots &\\ & & & \text{degree}(\mathcal A_{\mathcal K}) \end{bmatrix}_{\mathcal K \times \mathcal K}^{-1}}_{记作\mathcal P} \right\} \\ & = \text{tr}(\mathcal O \cdot \mathcal P^{-1}) \end{aligned}$

此时已经将优化问题转化为矩阵的表达形式，下一步通过 已知的划分出的结点子集 $\{\mathcal A_k\}_{k=1}^{\mathcal K} \Rightarrow \mathcal Y$ 以及对应的权重矩阵 $\mathcal E \Rightarrow \mathcal W = [\mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}]_{N \times N}$ 来表示矩阵 $\mathcal O,\mathcal P$ 。
需要说明的点：为什么说'指示向量' $\{\mathcal A_k\}_{k=1}^{\mathcal K} \Rightarrow \mathcal Y$ 是已知的。从流程上观察，整个过程是基于目标函数 $\text{Normalize-Cut}(\mathcal V)$ 的迭代过程，只有执行了划分之后，才能够计算出 $\text{Normalize-Cut}(\mathcal V)$ 的值，因而 $\mathcal Y$ 在每次迭代过程中都是已知的，只不过初始状态划分效果不佳， $\text{Normalize-Cut}(\mathcal V)$ 数值较大而已。通过不断减小 $\text{Normalize-Cut}(\mathcal V)$ 的值来优化划分方式 $\Rightarrow \mathcal Y$ .

矩阵 $\mathcal P$ 的化简过程

重新观察 $\mathcal Y$ ，以及 $\mathcal Y^T\mathcal Y$ ：
$\begin{aligned} \mathcal Y^T\mathcal Y & = \left[y^{(1)},y^{(2)},\cdots,y^{(N)}\right]_{\mathcal K \times N} \cdot \left[y^{(1)},y^{(2)},\cdots,y^{(N)}\right]_{N \times \mathcal K}^T \\ & = \left[\sum_{i=1}^N y^{(i)}[y^{(i)}]^T\right]_{\mathcal K \times \mathcal K} \end{aligned}$
由于 $y^{(i)}$ 是一个 $\text{one-hot}$ 向量，因而 $y^{(i)}[y^{(i)}]^T$ 是一个只有一个元素是1的 $\mathcal K \times \mathcal K$ 矩阵，并且这个元素一定在对角线的位置上，这个位置具体取决于 $y^{(i)}$ 数值为1对应的列数。因而 $\mathcal Y^T\mathcal Y$ 对应的 $\mathcal K \times \mathcal K$ 矩阵内容可描述为：
其中 $N_1$ 的物理意义是： $N$ 个样本中属于结点子集 $\mathcal A_1$ 的样本数量。也可表示成 $N_1 = |\mathcal A_1| = \sum_{v^{(i)} \in \mathcal A_1} \cdot 1$ ,以此类推。
$\begin{aligned} \left[\sum_{i=1}^N y^{(i)}[y^{(i)}]^T\right]_{\mathcal K \times \mathcal K} & = \begin{bmatrix} N_1 & & & \\ & N_2 & & \\ & & \ddots &\\ & & & N_{\mathcal K} \end{bmatrix}_{\mathcal K \times \mathcal K} \quad \sum_{k=1}^{\mathcal K} N_k = N \\ & = \begin{bmatrix} \sum_{v^{(i)} \in \mathcal A_1} \cdot 1 & & & \\ & \sum_{v^{(i)} \in \mathcal A_2} \cdot 1 & & \\ & & \ddots &\\ & & & \sum_{v^{(i)} \in \mathcal A_{\mathcal K}} \cdot 1 \end{bmatrix}_{\mathcal K \times \mathcal K} \end{aligned}$
至此，我们完全可以使用 $\mathcal Y^T\mathcal Y$ 来描述矩阵 $\mathcal P$ 了：

其中 $\sum_{j=1}^N \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}$ 内部只有与 $v^{(i)}$ 存在边相连的若干项是有值的，其余均是 $0$ .
由于 $\sum_{j=1}^N \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}$ 是一个实数，并且 $y^{(i)}]^T$ 中不含 $j$ ,直接将连加号带进去即可.
$\begin{aligned} \text{degree}(\mathcal A_k) & = \sum_{v^{(i)} \in \mathcal A_k} \sum_{j=1}^N \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}} \\ & = \sum_{v^{(i)} \in\mathcal A_k}\sum_{j=1}^N \left\{[y^{(i)}]^T \cdot \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}} \cdot y^{(i)}\right\} \\ & =\sum_{v^{(i)} \in\mathcal A_k} [y^{(i)}]^T \left\{\sum_{j=1}^N \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}} \right\} y^{(i)}\\ \mathcal P & = \begin{bmatrix} \sum_{v^{(i)} \in \mathcal A_1} \sum_{j=1}^N \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}} & & & \\ & \sum_{v^{(i)} \in \mathcal A_2} \sum_{j=1}^N \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}} & & \\ & & \ddots &\\ & & & \sum_{v^{(i)} \in \mathcal A_{\mathcal K}} \sum_{j=1}^N \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}) \end{bmatrix}_{\mathcal K \times \mathcal K} \\ & = (y^{(1)},y^{(2)},\cdots,y^{(N)})_{\mathcal K \times N} \underbrace{\begin{bmatrix} \sum_{j=1}^N \mathcal W_{v^{(1)} \Leftrightarrow v^{(j)}} & & & \\ & \sum_{j=1}^N \mathcal W_{v^{(2)} \Leftrightarrow v^{(j)}} & & \\ & & \ddots &\\ & & & \sum_{j=1}^N \mathcal W_{v^{(N)} \Leftrightarrow v^{(j)}}) \end{bmatrix}_{N \times N}}_{记作\mathcal D} \begin{pmatrix} y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(N)} \end{pmatrix}_{N \times \mathcal K} \\ & = \mathcal Y^T \mathcal D \mathcal Y \end{aligned}$

继续观察矩阵 $\mathcal D$ ，可以发现 $\mathcal D$ 中的每一个元素均可以使用 $\mathcal W$ 进行表示：

其中 $\mathcal W_i$ 表示权重矩阵的第 $i$ 行; $\mathcal I_{N \times 1}$ 表示元素均为1,并且长度为 $N$ 的列向量.
$\text{diag}(\mathcal W \cdot \mathcal I_{N \times 1})$ 表示将列向量 $\mathcal W \cdot \mathcal I_{N \times 1}$ 中的所有元素按顺序放置在矩阵对角线位置，从而构成对角阵 -> 对角转化
$\begin{cases} \sum_{j=1}^N \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}} = [\mathcal W_i]_{1 \times N} \cdot \mathcal I_{N \times 1} \\ \mathcal D = \text{diag}(\mathcal W \cdot \mathcal I_{N \times 1}) \end{cases}$

矩阵 $\mathcal O$ 的化简过程

至此，可以使用权重矩阵 $\mathcal W$ 描述矩阵 $\mathcal P$ ，继续观察矩阵 $\mathcal O$ ：

首先观察矩阵 $\mathcal O$ 中元素的表达形式，可以将其修改成如下形式：
结点集合补集的定义： $\mathcal A_k \cup \bar {\mathcal A_k} = \mathcal V$
$\begin{aligned} \psi(\mathcal A_k, \bar {\mathcal A_k}) & = \psi(\mathcal A_k,\mathcal V) - \psi(\mathcal A_k,\mathcal A_k) \\ & = \sum_{v^{(i)} \in \mathcal A_k} \sum_{j=1}^N \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}} - \sum_{v^{(i)} \in \mathcal A_k} \sum_{v^{(j)} \in \mathcal A_k} \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}} \\ & = \text{degree}(\mathcal A_k) - \psi(\mathcal A_k,\mathcal A_k) \end{aligned}$
对应的矩阵 $\mathcal O$ 可表示成如下形式：
$\begin{aligned} \mathcal O & = \begin{bmatrix} \psi(\mathcal A_1, \bar {\mathcal A_1}) & & & \\ & \psi(\mathcal A_2, \bar {\mathcal A_2}) & & \\ & & \ddots &\\ & & & \psi(\mathcal A_{\mathcal K}, \bar {\mathcal A_{\mathcal K}}) \end{bmatrix}_{\mathcal K \times \mathcal K} \\ & = \begin{bmatrix} \text{degree}(\mathcal A_1) & & & \\ & \text{degree}(\mathcal A_2) & & \\ & & \ddots &\\ & & & \text{degree}(\mathcal A_{\mathcal K}) \end{bmatrix}_{\mathcal K \times \mathcal K} - \begin{bmatrix} \psi(\mathcal A_1,\mathcal A_1) & & & \\ & \psi(\mathcal A_2,\mathcal A_2) & & \\ & & \ddots &\\ & & & \psi(\mathcal A_{\mathcal K},\mathcal A_{\mathcal K}) \end{bmatrix} \end{aligned}$

第一项我们认识，它就是 $\mathcal Y^T\mathcal D\mathcal Y$ 。在观察第二项之前，先认识一个 $\mathcal K \times \mathcal K$ 的矩阵： $\mathcal Y^T \mathcal W \mathcal Y$ 。先将 $\mathcal Y^T\mathcal W \mathcal Y$ 展开，其结果表示如下：
$\begin{aligned} \mathcal Y^T\mathcal W \mathcal Y & = \left(y^{(1)},y^{(2)},\cdots,y^{(N)}\right)_{\mathcal K \times N}\begin{bmatrix} \mathcal W_{v^{(1)} \Leftrightarrow v^{(1)}},\mathcal W_{v^{(1)} \Leftrightarrow v^{(2)}},\cdots,\mathcal W_{v^{(1)} \Leftrightarrow v^{(N)}} \\ \mathcal W_{v^{(2)} \Leftrightarrow v^{(1)}},\mathcal W_{v^{(2)} \Leftrightarrow v^{(2)}},\cdots,\mathcal W_{v^{(2)} \Leftrightarrow v^{(N)}} \\ \vdots \\ \mathcal W_{v^{(N)} \Leftrightarrow v^{(1)}},\mathcal W_{v^{(N)} \Leftrightarrow v^{(2)}},\cdots,\mathcal W_{v^{(N)} \Leftrightarrow v^{(N)}} \\ \end{bmatrix}_{N \times N} \begin{pmatrix} y^{(1)} \\ y^{(2)}\\ \vdots \\ y^{(N)} \end{pmatrix}_{N \times \mathcal K} \\ & = \left[\sum_{i=1}^N y^{(i)} \cdot \mathcal W_{v^{(i)} \Leftrightarrow v^{(1)}} \cdots,\sum_{i=1}^N y^{(i)} \cdot \mathcal W_{v^{(i)} \Leftrightarrow v^{(N)}}\right]_{\mathcal K \times N} \begin{pmatrix} y^{(1)} \\ y^{(2)}\\ \vdots \\ y^{(N)} \end{pmatrix}_{N \times \mathcal K}\\ & = \sum_{i=1}^{N} \sum_{j=1}^N \left\{y^{(i)} [y^{(j)}]^T \cdot \underbrace{\mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}}_{实数}\right\}_{\mathcal K \times \mathcal K} \\ \end{aligned}$
如果将上式的 $\mathcal K \times \mathcal K$ 展开，可以表示成如下形式：
这里个人出现一个误区： $\{y^{(i)}[y^{(j)}]^T\}_{\mathcal K \times \mathcal K}$ 在 $i, j$ 不属于同一个结点集合时，其矩阵结果并不是全零元素。而是存在一个 $1$ 元素。示例：如果 $v^{(i)}\in\mathcal A_{1},v^{(j)} \in \mathcal A_{\mathcal K}$ ,那么对应的 $\{y^{(i)}[y^{(j)}]^T\}_{\mathcal K \times \mathcal K}$ 应该是这个的样子:
$\begin{aligned} & v^{(i)}\in\mathcal A_{1},v^{(j)} \in \mathcal A_{\mathcal K} \Rightarrow \{y^{(i)}[y^{(j)}]^T\}_{\mathcal K \times \mathcal K} = \begin{pmatrix} 0 & 0 &\cdots &0 \\ 0 & 0 & \cdots &0 \\ \vdots & \vdots & \ddots & \vdots\\ 1 & 0 & \cdots & 0 \end{pmatrix}_{\mathcal K \times \mathcal K} \\ \mathcal Y^T\mathcal W \mathcal Y & = \begin{pmatrix} \sum_{v^{(i)} \in \mathcal A_1}\sum_{v^{(j)} \in \mathcal A_1 \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}} & \sum_{v^{(i)} \in \mathcal A_1}\sum_{v^{(j)} \in \mathcal A_2 \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}} &\cdots &\sum_{v^{(i)} \in \mathcal A_1}\sum_{v^{(j)} \in \mathcal A_{\mathcal K} \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}} \\ \sum_{v^{(i)} \in \mathcal A_2}\sum_{v^{(j)} \in \mathcal A_1 \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}} & \sum_{v^{(i)} \in \mathcal A_2}\sum_{v^{(j)} \in \mathcal A_2 \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}} & \cdots & \sum_{v^{(i)} \in \mathcal A_2}\sum_{v^{(j)} \in \mathcal A_{\mathcal K} \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}} \\ \vdots & \vdots & \ddots & \vdots\\ \sum_{v^{(i)} \in \mathcal A_{\mathcal K}}\sum_{v^{(j)} \in \mathcal A_1 \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}} & \sum_{v^{(i)} \in \mathcal A_{\mathcal K}}\sum_{v^{(j)} \in \mathcal A_2 \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}} & \cdots & \sum_{v^{(i)} \in \mathcal A_{\mathcal K}}\sum_{v^{(j)} \in \mathcal A_{\mathcal K} \mathcal W_{v^{(i)} \Leftrightarrow v^{(j)}}} \end{pmatrix}_{\mathcal K \times \mathcal K} \\ & = \begin{bmatrix} \psi(\mathcal A_1,\mathcal A_1) & \psi(\mathcal A_1,\mathcal A_2) &\cdots &\psi(\mathcal A_1,\mathcal A_{\mathcal K}) \\ \psi(\mathcal A_2,\mathcal A_1) & \psi(\mathcal A_2,\mathcal A_2) & \cdots &\psi(\mathcal A_2,\mathcal A_{\mathcal K}) \\ \vdots & \vdots & \ddots & \vdots\\ \psi(\mathcal A_{\mathcal K},\mathcal A_1) & \psi(\mathcal A_{\mathcal K},\mathcal A_2) & \cdots & \psi(\mathcal A_{\mathcal K},\mathcal A_{\mathcal K}) \end{bmatrix}_{\mathcal K \times \mathcal K} \end{aligned}$
很明显， $\mathcal Y^T\mathcal W\mathcal Y$ 和 $\mathcal O$ 中的第二项是不同的。但如果将 $\mathcal Y^T\mathcal W\mathcal Y$ 替代第二项，记作 $\mathcal O'$ 。由于要求解的是 $\text{tr}(\mathcal O \cdot \mathcal P^{-1})$ ，但是 $\mathcal P$ 是对角矩阵( $\mathcal P^{-1}$ 自然也是对角矩阵)，那么会出现这样的现象：
其中 $\mathcal O'$ 和对角阵 $\mathcal P^{-1}$ 相乘，它仅影响对角线上的元素，对其他位置的元素虽然也影响，但其他位置我们并不关心，因为我们只关心 $\text{tr}(\mathcal O' \mathcal P^{-1})$ ,也就是它主对角线上的元素和。
$\begin{aligned} \mathcal O' & = \mathcal Y^T\mathcal D \mathcal Y - \mathcal Y^T\mathcal W \mathcal Y \\ & = \begin{bmatrix} \psi(\mathcal A_1, \bar {\mathcal A_1}) & -\psi(\mathcal A_1,\mathcal A_2) & \cdots & -\psi(\mathcal A_1,\mathcal A_{\mathcal K}) \\ -\psi(\mathcal A_2,\mathcal A_1) & \psi(\mathcal A_2, \bar {\mathcal A_2}) & \cdots & -\psi(\mathcal A_2,\mathcal A_{\mathcal K})\\ \vdots & \vdots & \ddots & \vdots \\ -\psi(\mathcal A_{\mathcal K},\mathcal A_1) & -\psi(\mathcal A_{\mathcal K},\mathcal A_2) & \cdots & \psi(\mathcal A_{\mathcal K}, \bar {\mathcal A_{\mathcal K}}) \end{bmatrix}_{\mathcal K \times \mathcal K} \\ & \Rightarrow \text{tr}(\mathcal O'\mathcal P^{-1}) = \text{tr}(\mathcal O\mathcal P^{-1}) \end{aligned}$

目标函数整理与拉普拉斯矩阵

至此， $\mathcal O,\mathcal P$ 都可以使用 $\mathcal W,\mathcal Y$ 进行表示。关于目标函数可转化至如下形式：
矩阵的逆应该放在外面，上面也是，latex用的不好~，见笑。
$\begin{aligned} \hat {\mathcal Y} & = \mathop{\arg\min}\limits_{\mathcal Y}\sum_{k=1}^{\mathcal K} \frac{\psi(\mathcal A_k,\bar {\mathcal A_k})}{\text{degree}(\mathcal A_k)} \\ & = \mathop{\arg\min}\limits_{\mathcal Y} \text{tr}(\mathcal O \mathcal P^{-1}) \\ & = \mathop{\arg\min}\limits_{\mathcal Y} \text{tr}(\mathcal O' \mathcal P^{-1}) \\ & = \mathop{\arg\min}\limits_{\mathcal Y} \text{tr} \left[\underbrace{\mathcal Y^T(\mathcal D - \mathcal W) \mathcal Y}_{\mathcal O'} \cdot \underbrace{\left(\mathcal Y^T \mathcal D \mathcal Y\right)^{-1}}_{\mathcal P}\right] \end{aligned}$
通常令 $\mathcal L = \mathcal D - \mathcal W$ ，其中 $\mathcal L$ 也被称作拉普拉斯矩阵( $\text{Laplacian Matrix}$ )

猜你喜欢

2015第30周四Java日志组件
【吴恩达机器学习】Week7 编程作业ex6——支持向量机SVM
网络安全入门教程（非常详细）从零基础入门到精通，看完这一篇就够了。
NIO基础
nginx json 格式输出
等保 postgres
Android中Service概述
1067 Sort with Swap(0, i) (25 分)【难度: 中 / 知识点: 置换群】
Windows 2012 R2 DataCenter服务器重启之后，其他加域电脑无法访问域账户
MSP430F169用定时器TimerA实现闪烁灯
用Locust做性能测试是一种什么样的体验？
关于access数据库打不开
用户输入验证的集总

相关主题

[机器学习] 集成学习
机器学习笔记（一）
机器学习过程

zl程序教程

当前栏目

机器学习笔记之谱聚类(三)模型的矩阵形式转化

机器学习笔记之谱聚类——模型的矩阵形式转化

引言

回顾：谱聚类——目标函数表示

引入指示向量

优化问题的化简过程

小插曲：观察 $\text{Normalize-Cut}(\mathcal V)$

化简过程

矩阵 $\mathcal P$ 的化简过程

矩阵 $\mathcal O$ 的化简过程

目标函数整理与拉普拉斯矩阵

相关文章

当前栏目

机器学习笔记之谱聚类(三)模型的矩阵形式转化

机器学习笔记之谱聚类——模型的矩阵形式转化

引言

回顾：谱聚类——目标函数表示

引入指示向量

优化问题的化简过程

小插曲：观察 Normalize-Cut ( V ) \text{Normalize-Cut}(\mathcal V) Normalize-Cut(V)

化简过程

矩阵 P \mathcal P P的化简过程

矩阵 O \mathcal O O的化简过程

目标函数整理与拉普拉斯矩阵

相关文章

小插曲：观察 $\text{Normalize-Cut}(\mathcal V)$

矩阵 $\mathcal P$ 的化简过程

矩阵 $\mathcal O$ 的化简过程