您现在的位置是：首页 > 其他

当前栏目

算法工程师面试题一之梯度下降算法

面试题工程师算法梯度下降

2023-09-14 09:13:19 时间

总结

文章来源：CSDN@LawsonAbs
本文详细介绍了整个梯度下降算法的缘由，并给出了详细的背景知识
关键词：机器学习；优化算法；梯度下降；

1 前言

机器学习任务通常分成三个步骤：模型表征+模型评估+优化算法。

模型表征是指该用什么样的映射函数，将数据映射到一个结果；
模型评估是按照某种评估准则设计的一个评估算法，用于评价这个表征模型效果如何；
优化算法的目的是优化表征模型；
优化并不仅能在感官上认识，更重要的是需要用数学量化出来，结合数学公式证明并优化整个模型表征的效果。下面结合一个通俗的例子来解释这个过程。

例1.现在有很多男男女女的配对信息，需要给出两个人的亲密程度。

分析：分别考虑如下三个问题：模型表征，模型评估，优化算法。

模型表征：使用一个映射函数 $f (x)$ 作为模型，用 $x_1,x_2$ 分别表示男女，则有 $\hat{y}=f(x1,x2)$ 表示出两者的亲密值。
模型评估：根据原始数据集 $x_1,x_2,y)$ ，以及预测到的亲密值 $\hat{y}$ 可以设计一个模型评估准则，这个准则用于衡量映射函数的好坏，也就是表征模型的性能。这里使用MSE方法作为评估函数，也就是常说的损失函数。
优化算法：因为想使得模型更好的拟合数据，所以这里得到损失之后，优化的过程就是想使得整个损失变得最小。

由上所述，可知问题就变转换成了该怎么缩小损失，从而更好地拟合模型。在这个过程中，便可使用梯度下降方法来解决这个问题。在介绍梯度下降之前，先来系统的学习一下梯度的由来。

2 背景知识

在谈及梯度的时候，我们不得不谈谈方向导数，而在谈方向导数时候，又不得不理解方向余弦。

2.1 方向余弦

方向余弦是为了方便刻画向量的方向而引出的一个概念。向量的方向可以用同方向的单位向量来表示。

设 $l$ 是一个 $n$ 维非零向量, $l_0=\frac{l}{||l||}$ ，即 $l_0$ 是与 $l$ 同方向的单位向量。取 $0\leq\alpha_{i}\leq\pi$ ，使得 $l_0=(cos\alpha_{1},...,cos\alpha_{n})$ 。显然， $cos^2\alpha_{1}+...+cos^2\alpha_{n}=1$ 。称：
$cos\alpha_{1},cos\alpha_{2},...,cos\alpha_{n}$
为向量 $l$ 的方向余弦。例如，在二维空间中，向量 $l$ 与 $x$ 轴的夹角就是 $\alpha_{1}$ ，与 $y$ 轴的夹角就是 $\alpha_{2}$ ，其方向余弦就是 $cos\alpha{1},cos\alpha{2}$ 。

2.2 方向导数

导数常用来衡量一个函数的变化速率。方向导数也是一样，只不过方向导数衡量的是某个方向的变化速率。这点很重要，因为通过刚才的例1分析，我们知道要把损失降到最小，但是该怎么降？于是联想是否可以在该点往y值下降(y其实就是损失)靠近，但是损失下降的方向是什么方向？这就涉及到了方向导数。下面仔细看看方向导数是个什么？该怎么定义？
定义：
设 $f$ 是定义于 $R^n$ 中某区域 $D$ 上的函数，点 $P_0 \in D$ , $l$ 为一给定的非零向量， $P$ 为一动点，向量 $P_0P$ 与 $l$ 的方向始终一致。如果极限
$\lim_{||P_0P|| \to 0 } \frac{f(P)-f(P_0)}{||P_0P||}$
存在，则称此极限为函数 $f$ 在 $P_0$ 处沿 $l$ 方向的方向导数，记作 $\frac{\partial(f)}{\partial(l)}$ 。方向导数可以用偏导数来表示。

下面就证明这一结论。
证明方向导数的表达式是： $\left.\frac{\partial(f)}{\partial(l)}\right|_{p_{0}} = \left.\frac{\partial(f)}{\partial(x_1)}\right|_{p_{0}} cos \alpha_1 + \left.\frac{\partial(f)}{\partial(x_2)}\right|_{p_{0}} cos \alpha_2 + ... + \left.\frac{\partial(f)}{\partial(x_3)}\right|_{p_{0}} cos \alpha_n$

性质接着来看方向导数的几个性质：

方向导数是个值;

2.3 梯度

介绍完方向导数之后，先以二元函数 $z = f (x, y)$ 为例，再看看梯度的定义。
定义：设函数 $z = f (x, y)$ 在平面D上有一阶连续偏导数，则在每点 $\in D$ ，都可定义一个向量：
$\frac{\partial(f)}{\partial(x)} * \vec{i} + \frac{\partial(f)}{\partial(y)} * \vec{j}$
称这个向量为函数 $z = f (x, y)$ 在点 $p (x, y)$ 处的梯度，记作 $g r a d f (x, y)$ ，即：
$\frac{\partial(f)}{\partial(x)} * \vec{i} + \frac{\partial(f)}{\partial(y)} * \vec{j}$
也可写作
$\{\frac{\partial(f)}{\partial(x)}, \frac{\partial(f)}{\partial(y)}\}$
如果设 $\vec{e}=cos \alpha_1 * \vec{i} + cos \alpha_2 *\vec{j}$ 是与方向 $l$ 同向的单位向量，则由方向导数的计算公式可知：
$\begin{aligned} \frac{\partial(f)}{\partial(l)} &= \frac{\partial(f)}{\partial(x)} cos \alpha_1 + \frac{\partial(f)}{\partial(y)} cos \alpha_2 \\ &=\{ \frac{ \partial(f)} {\partial(x)} , \frac{ \partial(f)} {\partial(y)} \} * \{ cos\alpha_1 ,cos\alpha_2 \}\\ &=grad f(x,y) * e \end{aligned}$
这里的 $g r a d (x, y) * e$ 就是一个内积，当二者方向相同时，计算结果取到最大值。也就是说：当 $l$ 的方向与 $g r a d f (x, y)$ 方向相同时，方向导数的值取最大；当 $l$ 的方向与梯度方向相反时，计算结果取最小。那么可以得出如下结论：
函数在某点的梯度是这样一个向量，它的方向与取得最大方向导数的方向一致，而它的模为方向导数的最大值。

这就牵引出整个AI最为核心的内容：如果我们想优化某个问题，就可以使用梯度的这个性质，也有以下结论成立：

如果我们需要优化一个函数值，想让其变得小（即minimize的过程），那么就应该朝其负梯度方向变化；
如果想让其变得更大（即maxmum的过程），那么就应该朝其梯度方向变化。

梯度下降方向和等高线的切线方向有什么关系呢？

仍以二元函数 $z = f (x, y)$ 为例。一般说来，二元函数在集合上表示一个曲面，这曲面被平面 $z = c$ （c是常数）所截得的曲线的方程是：
$\left \{ \begin{aligned} z& = f(x,y) \\ z&=c \end{aligned} \right.$
这条曲线 $l$ 在 $x O y$ 平面上的投影是一个平面曲线 $L$ ，它在 $x O y$ 平面直角坐标系中的方程为 $f (x, y) = c$ 。因为该函数的函数值都是 $c$ ，所以我们称平面曲线 $L$ 为函数 $z = f (x, y)$ 的等高线。
设方程 $f (x, y) = c$ 确定了隐函数 $y = y (x)$ ,将此函数代入原方程，得恒等式:

$\equiv 0$
等式两端对x求导：

$f_x + f_y * y'(x) = 0$
得： $-\frac{f_x}{f_y}$
故等值线 $f (x, y) = c$ 在点 $(x, y)$ 处的法向量为： $\{1,\frac{f_y}{f_x}\}$ 或 $\{f_x,f_y\} = \nabla f(x,y)$ 正好是函数 $f (x, y)$ 在 $(x, y)$ 处的梯度.因此我们可以得到梯度与等高线的关系：函数在点 $(x, y)$ 处的梯度的方向与过点的等高线在这点的法线的一个方向相同，且从数值较低的等高线指向数值较高的等高线，而梯度的模等于函数在这个法线方向的方向导数。

3 梯度下降算法

结合上面的知识，我们可以推出一个优化算法——梯度下降算法:
令 $x^0$ 作为初始搜索点，并沿着梯度负方向构造一个新点 $x^0 - \alpha \nabla f(x^0)$ ，由泰勒定理可得：
$f(x^0 - \alpha \nabla f(x^0)) = f(x^0) - \alpha ||\nabla f(x^0)||^2 + o(\alpha)$
因此，如果 $\nabla f(x^0) \neq 0$ ，那么当 $\alpha$ 够小是，有：
$f(x^0 - \alpha \nabla f(x^0)) \leq f(x^0)$
成立。这意味着，从搜索目标函数极小点的角度来看， $f(x^0 - \alpha \nabla f(x^0)) = f(x^0) - \alpha ||\nabla f(x^0)||^2 + o(\alpha)$ 相对于 $x^0$ 有所改善。这为极小点搜索工作提供了很好的启发。
可以设计一种方法实现以上理念。给定一个搜索点 $x^k$ ，由此点出发，根据向量 $-\alpha_k \nabla f(x^k)$ 指定的方向和幅值运动，构造新点 $x^{k+1}$ ，其中， $\alpha_k$ 是一个正实数，称为步长。这样，就可以得到一个迭代公式：
$x^{k+1} = x^{k} - \alpha_k \nabla f(x^{k})$
这称为梯度下降方法（或简称梯度方法）。在搜索过程中，梯度不断变化，当接近极小点时，梯度应该趋近于0。可以设定很小的步长，每次迭代都重新计算梯度；当然也可以设置很大的步长。前者的工作量非常大，而后者则容易在极小点附近产生锯齿状的收敛路径，优势在于梯度的计算次数要少一些。梯度下降方法包括很多种不同的具体算法，最常用的算法为最速下降法。

3.1 最速下降法

最速下降法是梯度方法的一种具体实现，其理念为在每次迭代中选择合适的步长 $\alpha_k$ ，使得目标函数值能够得到最大程度的减小。梯度方法便于实现，且大部分情况下能够很好地运行。
下面针对具体的函数模型给出算法的迭代过程。利用最速下降法求解函数：
$f(x_1,x_2，x_3) = (x_1 - 4)^4 + (x_2 - 3)^2 + 4(x_3 + 5)^4$
的极小点。初始搜索点为 $x^0=[4,2,-1]^T$ ，开展3次迭代。
\subparagraph{} 目标函数的梯度为：
$\nabla f(x) = [4(x_1-4)^3,2(x_2-3),16(x_3+5)^3]^T$
因此， $x^0$ 处的梯度为 $\nabla f(x^0)=[0,-2,1024]^T$ ，确定 $x^1$ 处的步长：
$\begin{aligned} \alpha_0 &= \mathop{\arg\min}_{\alpha_0} f(x^0 - \alpha \nabla f(x^0) )\\ &=\mathop{\arg\min}_{\alpha_0 \geq 0} (0+(2+2\alpha-3)^2+4(-1-1024\alpha+5)^4)\\ &=\mathop{\arg\min}_{\alpha_0 \geq 0} \phi(\alpha) \end{aligned}$
应用割线法开展一维搜索，可得： $\alpha_0 = 3.967 * 10^{-3}$ 。于是得到新的迭代点
$x^1 = x^0 - \alpha_0 \nabla f(x^0) = [4.0000,2.0008,-5.062]^T$
如此迭代计算，可得：
$\alpha_1 = 0.500, x^2 = x^1 - \alpha_0 \nabla f(x^1) = [4.0000,3.0000,-5.060]^T$
$\alpha_2 = 16.29, x^3 = x^2 - \alpha_0 \nabla f(x^2) = [4.0000,3.0000,-5.002]^T$
根据函数表达式，可以很直观的看到 $f(x_1,x_2,x_3)$ 的最小值就是(4,3,-5).

3.2 固定步长梯度法

根据步长是否固定，可将梯度下降法分成固定步长梯度法和最速下降法。固定步长梯度法就是迭代更新时步长固定。这种步长固定梯度法简单实用。由于步长固定，因此，在每步迭代中，不需要开展以为搜索确定步长 $\alpha_k$ . 显然，该方法的收敛性与步长 $\alpha$ 有关。

4 结论

本文的贡献在于：

给出方向导数表达式的证明；
推导梯度和方向导数之间的关系；
证明梯度方向与等高线的切线方向垂直；
给出梯度下降算法及相关系列算法，并结合实例给出迭代结果；

0. 方向余弦

在这里插入图片描述

1.方向导数

在这里插入图片描述

3. 其它

在这里插入图片描述

猜你喜欢

对话天翼云江峰：“死磕”对象存储的用户成本
社交平台 Reddit iOS 版更新，带来类似抖音的短视频功能
MySQL被黑客攻击：安全隐患分析（mysql被注入）
探索汽车新领域：Linux技术之旅（汽车linux）
关于生成器和yield的执行过程
MySQL字段类型: 深入理解每种数据类型（mysql字段类型）
5个自动化小技巧：聪明的员工和管理者如何提升效率？
《吐血整理》保姆级系列教程-玩转Fiddler抓包教程(6)-Fiddler状态面板详解
服务器上传图片至Linux服务器的步骤（上传图片到linux）
科学家开发实验性大脑植入物
Oracle空格符：实现高效的数据结构（oracle 空格符）
事件的事后调查
将Docker镜像安全扫描步骤添加到CI/CD管道

相关主题

Java面试题10道
大厂JAVA面试题

zl程序教程

当前栏目

算法工程师面试题一之梯度下降算法

总结

1 前言

2 背景知识

2.1 方向余弦

2.2 方向导数

2.3 梯度

梯度下降方向和等高线的切线方向有什么关系呢？

3 梯度下降算法

3.1 最速下降法

3.2 固定步长梯度法

4 结论

0. 方向余弦

1.方向导数

3. 其它

相关文章