您现在的位置是：首页 > 工具

当前栏目

下降法(Descent Directions Method)学习

学习 method 下降

2023-09-14 09:06:48 时间

目标

$\min\{f(\boldsymbol{x}):\boldsymbol{x}\in \mathbb{R}^n \}$

下降方向

设 $f:\mathbb{R}^n \to \mathbb{R}$ 是一个在 $\mathbb{R}^n$ 上连续可微的函数。
$0\neq \boldsymbol{d}\in \mathbb{R}^n$ ,如果
$f'(\boldsymbol{x};\boldsymbol{d})=\nabla f(\boldsymbol{x})^T\boldsymbol{d}<0$
那么称 $\boldsymbol{d}$ 为一个下降方向

性质

设 $f:\mathbb{R}^n \to \mathbb{R}$ 是一个在 $\mathbb{R}^n$ 上连续可微的函数。 $\boldsymbol{x}\in \mathbb{R}^n$
如果 $\boldsymbol{d}$ 是一个下降方向，那么 $\exists\epsilon>0$ ,使得 $\forall t\in(0,\epsilon]$ ,有
$f(\boldsymbol{x}+t\boldsymbol{d})<f(\boldsymbol{x})$
证明：
$\lim\limits_{t\to 0^{+}}\frac{f(\boldsymbol{x}+t\boldsymbol{d})-f(\boldsymbol{x})}{t}=f'(\boldsymbol{x};\boldsymbol{d})<0$
由保号性， $\exists\epsilon>0$ ,使得 $\forall t\in(0,\epsilon]$ ,有
$\frac{f(\boldsymbol{x}+t\boldsymbol{d})-f(\boldsymbol{x})}{t}<0$
再根据 $t > 0$
有
$f(\boldsymbol{x}+t\boldsymbol{d})<f(\boldsymbol{x})$

Lipschitz连续

主要用到梯度是Lipschitz连续

假设 $f$ 连续可微，如果
$\Vert \nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y})\Vert \le L\Vert \boldsymbol{x}-\boldsymbol{y}\Vert,\forall \boldsymbol{x},\boldsymbol{y}\in\mathbb{R}^n$
那么称他的梯度 $\nabla f(\boldsymbol{x})$ 是Lipchitz连续的
$L$ 称为Lipschitz常数
显然 $\tilde{L}\ge L$ 也满足条件，所以我们只关心满足条件的 $L$ 中最小的

把梯度Lipschitz连续的函数的一类函数记为 $C_{L}^{1,1}(\mathbb{R}^n)$
如果不关心 $L$ 具体是多少，有时候也记为 $C_{L}^{1,1}$
比如 $f(\boldsymbol{x})=\boldsymbol{a}^T \boldsymbol{x}\in C_{0}^{1,1}$
$f(\boldsymbol{x})=\boldsymbol{x}^TA\boldsymbol{x}+2\boldsymbol{b}^T\boldsymbol{x}+c\in C_{2\Vert A\Vert}^{1,1}$

定理

假设 $f$ 二阶连续可微，那么下面两个命题等价
a) $f\in C_{L}^{1,1}$
b) $\forall \boldsymbol{x}\in \mathbb{R}^{n},\Vert \nabla^2f(\boldsymbol{x})\Vert \le L$
证明：
$b)\Rightarrow a)$
$\begin{aligned} \nabla f(\boldsymbol{y})&=\nabla f(\boldsymbol{x})+\int_{0}^{1}\nabla^2 f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))(\boldsymbol{y}-\boldsymbol{x})\mathrm{d}\boldsymbol{x}\\ &=\nabla f(\boldsymbol{x})+(\int_{0}^{1}\nabla^2 f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))\mathrm{d}\boldsymbol{x})(\boldsymbol{y}-\boldsymbol{x})\\ \end{aligned}$
所以
$\begin{aligned} \Vert \nabla f(\boldsymbol{y})-\nabla f(\boldsymbol{x})\Vert &=\Vert (\int_{0}^{1}\nabla^2 f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))\mathrm{d}\boldsymbol{x})(\boldsymbol{y}-\boldsymbol{x})\Vert\\ &\le \Vert \int_{0}^{1}\nabla^2 f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))\mathrm{d}\boldsymbol{x}\Vert\Vert\boldsymbol{y}-\boldsymbol{x}\Vert\\ &\le \left(\int_{0}^{1}\Vert\nabla^2 f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))\Vert\mathrm{d}\boldsymbol{x}\right)\Vert\boldsymbol{y}-\boldsymbol{x}\Vert\\ &\le L\Vert\boldsymbol{y}-\boldsymbol{x}\Vert \end{aligned}$
$a)\Rightarrow b)$
$\nabla f(\boldsymbol{x}+\alpha \boldsymbol{d})-\nabla f(\boldsymbol{x})=\int_{0}^{\alpha}\nabla^2f(\boldsymbol{x}+t \boldsymbol{d})\boldsymbol{d}\mathrm{d}t$
所以
$\Vert \left(\int_{0}^{\alpha}\nabla^2f(\boldsymbol{x}+t \boldsymbol{d})\mathrm{d}t\right)\boldsymbol{d}\Vert=\Vert\nabla f(\boldsymbol{x}+\alpha \boldsymbol{d})-\nabla f(\boldsymbol{x})\Vert\le \alpha L\Vert\boldsymbol{d}\Vert$
两边同除 $\alpha$ ,并令 $\alpha \to 0^{+}$
$\Vert \nabla^2f(\boldsymbol{x})\boldsymbol{d}\Vert\le L\Vert \boldsymbol{d}\Vert\Rightarrow \Vert \nabla^2f(\boldsymbol{x})\Vert \le L$

下降法

有了上面的知识，其实我们的迭代就很明显了
$\boldsymbol{x}_{k+1}=\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k},k=0,1,\cdots$
下降法的整体框架就是
1.选择初始点 $\boldsymbol{x}_0\in \mathbb{R}^n$
2. 循环 $k=0,1,\cdots$
a)选择下降方向 $\boldsymbol{d}_{k}$
b)挑选步长 $t_k$ ,使得 $f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})<f(\boldsymbol{x}_{k})$
c)迭代 $\boldsymbol{x}_{k+1}=\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k}$
d)如果满足停止条件就停止，并返回 $\boldsymbol{x}_{k+1}$

那么问题来了，

怎么选起始点
怎么选下降方向
怎么选步长
停止条件是什么

因为最小值点，起码得是一个驻点，所以停止条件经常就是 $\Vert f(x)\Vert \le \epsilon$
所以终点看步长和下降方向

步长

固定步长

就是 $\forall k,t_k=\tilde{t}$

精确线搜索算法

$t_{k}=\arg\min\limits_{t\ge 0}f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})$

非精确线搜索算法

对于非精确线搜索，就是步长需要满足一些条件。

Armijo准则

$f(\boldsymbol{x}_{k})-f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})\ge -\alpha t_k\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_k$
其中 $\alpha\in(0,1)$

如果 $t$ 足够小，这个准则总是能满足的
大概下面这个图这种感觉
在这里插入图片描述

存在性证明

设 $f:\mathbb{R}^n \to \mathbb{R}$ 是一个在 $\mathbb{R}^n$ 上连续可微的函数。 $\boldsymbol{x}\in \mathbb{R}^n$
设 $0\neq \boldsymbol{d}\in \mathbb{R}^n$ 是一个下降方向, $\alpha\in(0,1)$
那么 $\exists \epsilon>0,\forall t\in [0,\epsilon]$ ，有
$f(\boldsymbol{x})-f(\boldsymbol{x}+t \boldsymbol{d})\ge -\alpha t\nabla f(\boldsymbol{x})^T\boldsymbol{d}$

证明：
$\begin{aligned} f(\boldsymbol{x}+t \boldsymbol{d})&=f(\boldsymbol{x})+t\nabla f(\boldsymbol{x})^T\boldsymbol{d}+o(t\Vert \boldsymbol{d}\Vert)\\ f(\boldsymbol{x})-f(\boldsymbol{x}+t \boldsymbol{d})&=-\alpha t\nabla f(\boldsymbol{x})^T\boldsymbol{d}-(1-\alpha)\nabla f(\boldsymbol{x})^T\boldsymbol{d}-o(t\Vert \boldsymbol{d}\Vert) \end{aligned}$
$\lim \limits_{t \to 0^{+}} \frac{(1-\alpha) t \nabla f(\mathbf{x})^{T} \mathbf{d}+o(t\Vert\mathbf{d}\Vert)}{t}=(1-\alpha) \nabla f(\mathbf{x})^{T} \mathbf{d}<0$
因此 $\exists \epsilon>0,\forall t\in(0,\epsilon]$
$(1-\alpha)\nabla f(\boldsymbol{x})^T\boldsymbol{d}+o(t\Vert \boldsymbol{d}\Vert)<0$
进而
$f(\boldsymbol{x})-f(\boldsymbol{x}+t \boldsymbol{d})\ge -\alpha t\nabla f(\boldsymbol{x})^T\boldsymbol{d}$

Goldstein准则

也叫做Armijo-Goldstein准则
为了克服Armijo准则的步长可能过小，这个准则
$\begin{aligned} f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})&\le f(\boldsymbol{x}_{k})+\alpha t_k\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}\\ f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})&\ge f(\boldsymbol{x}_{k})+(1-\alpha) t_k\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}\\ \end{aligned}$
其中 $\alpha\in(0,\frac{1}{2})$
在这里插入图片描述
然而缺点就是，可能会漏掉最优的点

Wolfe准则

也叫Wolfe-Powell准则
$\begin{aligned} f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})&\le f(\boldsymbol{x}_{k})+\alpha_1 t_k\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}\\ \nabla f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})^T \boldsymbol{d}_{k}&\ge \alpha_2 \nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}\\ \end{aligned}$
其中 $\alpha_1,\alpha_2\in(0,1),\alpha_1<\alpha_2$

也有强Wolfe准则
$\begin{aligned} f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})&\le f(\boldsymbol{x}_{k})+\alpha_1 t_k\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}\\ \left|\nabla f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})^T \boldsymbol{d}_{k}\right|&\le \left|\alpha_2 \nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}\right|\\ \end{aligned}$
其中 $\alpha_1,\alpha_2\in(0,1),\alpha_1<\alpha_2$

设 $\phi(t_k)=f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})$
$\phi'(t_k)=\nabla f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})^T \boldsymbol{d}_{k}$
而极小值点 $t_k^{*}$ ,满足
$\phi'(t_k^*)=0$
所以第二个条件总是满足的
第一个条件其实就是Armijo准则
在这里插入图片描述

存在性

设 $f:\mathbb{R}^{n}\to\mathbb{R}$ 连续可微， $\mathbf{d}_k$ 时一个下降方向， $f$ 有下界 $\left\{\mathbf{x}_k+\alpha\mathbf{d}_k|\alpha>0\right\}$ .如果 $0<\alpha_1<\alpha_2<1$ ,则存在步长满足Wolfe准则和强Wolfe准则

证明：
设 $\phi(t_k)=f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})$
$l\left(t\right)=f(\boldsymbol{x}_{k})+\alpha_1 t\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}$ 和 $\phi$ 必然有交集
设 $t^{'} > 0$ 为他们相交的最小的 $t^{'}$ ,则
$f\left(\mathbf{x}_k+t'\mathbf{d}_k\right)=f(\boldsymbol{x}_{k})+\alpha_1 t'\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}$
$t^{'}$ 满足Armijo条件,并且对于小于 $t^{'}$ 的步长也满足

根据拉格朗日中值定理,存在 $t''\in\left(0,t'\right)$ ,使得
$f\left(\mathbf{x}_k+t'\mathbf{d}_k\right)-f(\boldsymbol{x}_{k})=t'\nabla f(\boldsymbol{x}_{k}+t'' \boldsymbol{d}_{k})^T \boldsymbol{d}_{k}$

结合一下
$\nabla f(\boldsymbol{x}_{k}+t'' \boldsymbol{d}_{k})^T \boldsymbol{d}_{k}=\alpha_1\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}>\alpha_2\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}$
所以 $t^{''}$ 是满足Wolfe准则的步长
注意到 $\alpha_2\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}<0$ 以及 $\alpha_1\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}<0$
所以 $t^{''}$ 是满足强Wolfe准则的步长

步骤

https://blog.csdn.net/weixin_43761124/article/details/107436454

收敛性

考虑一般的迭代格式，其中 $\boldsymbol{d}_k$ 是搜索方向， $t_k$ 是步长，且在迭代过程中满足Wolfe准则，假设目标函数 $f$ 连续可微，有下界，且
$\Vert \nabla f(\boldsymbol{x})- \nabla f(\boldsymbol{y})\Vert\le L\Vert \boldsymbol{x}-\boldsymbol{y}\Vert,\quad \forall \boldsymbol{x},\boldsymbol{y}\in\mathbb{R}^n$
那么
$\sum_{k=0}^{\infty}\cos^2\theta_k\Vert \nabla^2f(\boldsymbol{x}_k)\Vert^2<+\infty$
其中 $\cos\theta_k$ 为负梯度和下降方向 $d_k$ 的夹角的余弦，即
$\cos \theta_k=\frac{-\nabla f(\boldsymbol{x}_k)^T\boldsymbol{d}_k}{\Vert \nabla f(\boldsymbol{x}_k)\Vert\Vert \boldsymbol{d}_k\Vert}$
这个不等式也叫做Zoutendijk不等式

证明：

$\begin{aligned} \nabla f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})^T \boldsymbol{d}_{k}&\ge \alpha_2 \nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}\\ \nabla f(\boldsymbol{x}_{k+1})^T \boldsymbol{d}_{k}&\ge \alpha_2 \nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}\\ \nabla f(\boldsymbol{x}_{k+1})^T \boldsymbol{d}_{k} -\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}&\ge \alpha_2 \nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}-\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}\\ (\nabla f(\boldsymbol{x}_{k+1})-f(\boldsymbol{x}_{k}))^T\boldsymbol{d}_{k}&\ge(\alpha_2-1)\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k} \end{aligned}$
$(\nabla f(\boldsymbol{x}_{k+1})-f(\boldsymbol{x}_{k}))^T\boldsymbol{d}_{k}\le \Vert \nabla f(\boldsymbol{x}_{k+1})-f(\boldsymbol{x}_{k})\Vert \Vert \boldsymbol{d}_{k}\Vert\le t_{k}L\Vert \boldsymbol{d}_{k}\Vert^2$
于是
$t_k\ge \frac{(\alpha_2-1)}{L} \frac{\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}}{\Vert \boldsymbol{d}_{k}\Vert^2}$

注意到 $\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}<0$
$\begin{aligned} f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})&\le f(\boldsymbol{x}_{k})+\alpha_1 t_k\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}\\ f(\boldsymbol{x}_{k+1})&\le f(\boldsymbol{x}_{k})+\alpha_1 \frac{(\alpha_2-1)}{L} \frac{\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}}{\Vert \boldsymbol{d}_{k}\Vert^2}\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_{k}\\ f(\boldsymbol{x}_{k+1})&\le f(\boldsymbol{x}_{k})+\alpha_1 \frac{(\alpha_2-1)}{L} \cos^2\theta_k\Vert \nabla^2f(\boldsymbol{x}_k)\Vert^2 \end{aligned}$
关于 $k$ 求和，得到
$\begin{aligned} f(\boldsymbol{x}_{k+1})&\le f(0)+\alpha_1 \frac{(\alpha_2-1)}{L} \sum_{j=0}^{k}\cos^2\theta_j\Vert \nabla^2f(\boldsymbol{x}_j)\Vert^2\\ \sum_{j=0}^{k}\cos^2\theta_j\Vert \nabla^2f(\boldsymbol{x}_j)\Vert^2&\le \frac{f(0)-f(\boldsymbol{x}_{k+1})}{\alpha_1 \frac{(1-\alpha_2)}{L} } \end{aligned}$
其中利用了 $0<\alpha_1<\alpha_2<1$
因为 $f$ 有下界，所以 $k\to\infty$ 时
$\sum_{k=0}^{\infty}\cos^2\theta_k\Vert \nabla^2f(\boldsymbol{x}_k)\Vert^2<+\infty$

推论

对于迭代法，设
$\cos \theta_k=\frac{-\nabla f(\boldsymbol{x}_k)^T\boldsymbol{d}_k}{\Vert \nabla f(\boldsymbol{x}_k)\Vert\Vert \boldsymbol{d}_k\Vert}$
并假设 $\forall k,\exists \gamma>0$ 使得
$\theta_k<\frac{\pi}{2}-\gamma$
在Zoutendijk不等式成立的条件下，有
$\lim\limits_{k\to \infty}\nabla f(\boldsymbol{x}_k)=0$
证明：
假设结论不成立，即存在子列 ${k_l\}$ 和正常数 $\delta>0$ ,使得
$\Vert f(\boldsymbol{x}_{k_l})\Vert \ge \delta,l=1,2,\cdots$
$\begin{aligned} \theta_k &<\frac{\pi}{2}-\gamma\\ \cos \theta_k &>\cos (\frac{\pi}{2}-\gamma)=\sin\gamma>0 \end{aligned}$
$\begin{aligned} \sum_{k=0}^{\infty}\cos^2\theta_k\Vert \nabla^2f(\boldsymbol{x}_k)\Vert^2&\ge \sum_{l=1}^{\infty}\cos^2\theta_{k_l}\Vert \nabla^2f(\boldsymbol{x}_{k_l})\Vert^2\\ &\ge \sum_{l=1}^{\infty}\sin^2\gamma\delta^2\to +\infty\\ \end{aligned}$
矛盾
所以
$\lim\limits_{k\to \infty}\nabla f(\boldsymbol{x}_k)=0$

回溯法

设 $s>0,\alpha\in(0,1),\beta\in(0,1)$ ,我们要让步长满足Armijo准则
即，先猜测 $t_k=s$
当
$f(\boldsymbol{x}_{k})-f(\boldsymbol{x}_{k}+t_{k} \boldsymbol{d}_{k})< -\alpha t_k\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_k$
时，让 $t_k=\beta t_k$
换句话说, $t_k=s\beta^{i_k}$ ,其中 $i_k$ 满足
$f(\boldsymbol{x}_{k})-f(\boldsymbol{x}_{k}+s\beta^{i_k} \boldsymbol{d}_{k})\ge -\alpha s\beta^{i_k}\nabla f(\boldsymbol{x}_{k})^T\boldsymbol{d}_k$

梯度方法

引理

设 $f:\mathbb{R}^n \to \mathbb{R}$ 是一个在 $\mathbb{R}^n$ 上连续可微的函数。
设 $\boldsymbol{x}\in\mathbb{R}^n$ 不是一个驻点，即 $\nabla f(\boldsymbol{x})\neq 0$
那么
$\min\limits_{\boldsymbol{d}\in\mathbb{R}^n}\{f'(\boldsymbol{x};\boldsymbol{d}):\Vert \boldsymbol{d}\Vert=1\}$
的最优解是
$\boldsymbol{d}=-\frac{\nabla f(\boldsymbol{x})}{\Vert f(\boldsymbol{x})\Vert }$
证明：
$f'(\boldsymbol{x};\boldsymbol{d})=\nabla f(\boldsymbol{x})^T\boldsymbol{d}\ge-\Vert \nabla f(\boldsymbol{x})\Vert\Vert \boldsymbol{d}\Vert$
当且仅当 $\nabla f(\boldsymbol{x})=\lambda \boldsymbol{d}$ 时取等
即 $\boldsymbol{d}=-\Vert \nabla f(\boldsymbol{x})\Vert^2$

也就是说，负梯度方向是下降最快的方向

梯度方法框架

1.选择初始点 $\boldsymbol{x}_0\in \mathbb{R}^n$
2. 循环 $k=0,1,\cdots$
a)挑选步长 $t_k$ ,使得 $f(\boldsymbol{x}_{k}-t_{k} \nabla f(\boldsymbol{x}_k))<f(\boldsymbol{x}_{k})$
c)迭代 $\boldsymbol{x}_{k+1}=\boldsymbol{x}_{k}-t_{k} \nabla f(\boldsymbol{x}_k)$
d)如果满足停止条件就停止，并返回 $\boldsymbol{x}_{k+1}$

这里步长你依然可以用之前的固定步长，精确线搜索，或者回溯法，或者其他非精确线搜索

下面给出梯度方法中用回溯法的代码

function [x,fun_val]=gradient_method_backtracking(f,g,x0,s,alpha,...
beta,epsilon)
% Gradient method with backtracking stepsize rule
%
% INPUT
%=======================================
% f ......... objective function
% g ......... gradient of the objective function
% x0......... initial point
% s ......... initial choice of stepsize
% alpha ..... tolerance parameter for the stepsize selection
% beta ...... the constant in which the stepsize is multiplied
% at each backtracking step (0<beta<1)
% epsilon ... tolerance parameter for stopping rule
% OUTPUT
%=======================================
% x ......... optimal solution (up to a tolerance)
% of min f(x)
% fun_val ... optimal function value
x=x0;
grad=g(x);
fun_val=f(x);
iter=0;
while (norm(grad)>epsilon)
    iter=iter+1;
    t=s;
    while (fun_val-f(x-t*grad)<alpha*t*norm(grad)^2)
        t=beta*t;
    end
    x=x-t*grad;
    fun_val=f(x);
    grad=g(x);
    fprintf('iter_number = %3d norm_grad = %2.6f fun_val = %2.6f \n',...
    iter,norm(grad),fun_val);
end

收敛性

下降引理

设 $\in C_{L}^{1,1}$ ,那么 $\forall \mathbf{x},\mathbf{y}\in\mathbb{R}^{n}$
$f(\mathbf{y}) \leq f(\mathbf{x})+\nabla f(\mathbf{x})^{T}(\mathbf{y}-\mathbf{x})+\frac{L}{2}\|\mathbf{x}-\mathbf{y}\|^{2}$
证明：
$\begin{aligned} f(\mathbf{y})-f(\mathbf{x}) &=\int_{0}^{1}\langle\nabla f(\mathbf{x}+t(\mathbf{y}-\mathbf{x})), \mathbf{y}-\mathbf{x}\rangle \mathrm{d} t\\ f(\mathbf{y})-f(\mathbf{x}) &=\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle+\int_{0}^{1}\langle\nabla f(\mathbf{x}+t(\mathbf{y}-\mathbf{x}))-\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle \mathrm{d} t\\ |f(\mathbf{y})-f(\mathbf{x})-\langle\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle| &=\left|\int_{0}^{1}\langle\nabla f(\mathbf{x}+t(\mathbf{y}-\mathbf{x}))-\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle \mathrm{d} t\right| \\ & \leq \int_{0}^{1}|\langle\nabla f(\mathbf{x}+t(\mathbf{y}-\mathbf{x}))-\nabla f(\mathbf{x}), \mathbf{y}-\mathbf{x}\rangle| \mathrm{d} t \\ & \leq \int_{0}^{1}\|\nabla f(\mathbf{x}+t(\mathbf{y}-\mathbf{x}))-\nabla f(\mathbf{x})\| \cdot\|\mathbf{y}-\mathbf{x}\| \mathrm{d} t \\ & \leq \int_{0}^{1} t L\|\mathbf{y}-\mathbf{x}\|^{2} \mathrm{d} t \\ &=\frac{L}{2}\|\mathbf{y}-\mathbf{x}\|^{2} \end{aligned}$

充分下降引理

sufficient decrease lemma

假设 $f\in C_{L}^{1,1}$ ,那么 $\forall x\in \mathbb{R}^n,t>0$ ,有
$f(\mathbf{x})-f(\mathbf{x}-t \nabla f(\mathbf{x})) \geq t\left(1-\frac{L t}{2}\right)\|\nabla f(\mathbf{x})\|^{2}$
证明：
由下降引理
$\begin{aligned} f(\mathbf{x}-t \nabla f(\mathbf{x})) & \leq f(\mathbf{x})-t\|\nabla f(\mathbf{x})\|^{2}+\frac{L t^{2}}{2}\|\nabla f(\mathbf{x})\|^{2} \\ &=f(\mathbf{x})-t\left(1-\frac{L t}{2}\right)\|\nabla f(\mathbf{x})\|^{2} \end{aligned}$

固定步长

由充分下降引理
$f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right) \geq \bar{t}\left(1-\frac{L \bar{t}}{2}\right)\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}$
要想下降
$\begin{cases} \bar{t}>0\\ \left(1-\frac{L \bar{t}}{2}\right)>0 \end{cases}\Rightarrow 0<\bar{t}<\frac{2}{L}$
显然当 $\bar{t}=\frac{1}{L}$ 时取得最大值
所以固定步长，可以取 $\bar{t}=\frac{1}{L}$
从而
$f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right)=f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k}-\frac{1}{L} \nabla f\left(\mathbf{x}_{k}\right)\right) \geq \frac{1}{2 L}\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}$

精确线搜索

因为 $t_{k}=\arg\min\limits_{t\ge 0}f(\boldsymbol{x}_{k}-t_{k}\nabla f\left(\mathbf{x}_{k}\right) )$
有
$f\left(\mathbf{x}_{k}-t_{k} \nabla f\left(\mathbf{x}_{k}\right)\right) \leq f\left(\mathbf{x}_{k}-\frac{1}{L} \nabla f\left(\mathbf{x}_{k}\right)\right)$
因此
$f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right) \geq f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k}-\frac{1}{L} \nabla f\left(\mathbf{x}_{k}\right)\right) \geq \frac{1}{2 L}\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}$

回溯法

第一种情况，直接满足Armijo准则，即
$f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k}-s \nabla f\left(\mathbf{x}_{k}\right)\right) \geq \alpha s\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}$
第二种情况， $t_k$ 时满足Armijo准则，也就是说 $\frac{t_k}{\beta}$ 还不满足Armijo准则
有
$f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k}-\frac{t_{k}}{\beta} \nabla f\left(\mathbf{x}_{k}\right)\right)<\alpha \frac{t_{k}}{\beta}\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2},$
让 $x=x_k,t=\frac{t_k}{\beta}$ ,代入充分下降引理，有
$f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k}-\frac{t_{k}}{\beta} \nabla f\left(\mathbf{x}_{k}\right)\right) \geq \frac{t_{k}}{\beta}\left(1-\frac{L t_{k}}{2 \beta}\right)\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}$
联合上面两个式子，得到
$\begin{aligned} \frac{t_{k}}{\beta}\left(1-\frac{L t_{k}}{2 \beta}\right)&<\alpha \frac{t_{k}}{\beta}\\ t_k&>\frac{2(1-\alpha)\beta}{L} \end{aligned}$
综上所述
$t_{k} \geq \min \left\{s, \frac{2(1-\alpha) \beta}{L}\right\}$
使得
$f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k}-t_{k} \nabla f\left(\mathbf{x}_{k}\right)\right) \geq \alpha \min \left\{s, \frac{2(1-\alpha) \beta}{L}\right\}\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}$

梯度方法的充分下降

sufficient decrease of the gradient method
设 $f\in C_{L}^{1,1}(\mathbb{R}^{n})$
设 $\{\mathbf{x}_k\}_{k\ge 0}$ 为梯度方法产生在解决
$\min\limits_{\mathbf{x}\in\mathbb{R}^n}f(\mathbf{x})$
产生的序列，使用的步长

固定步长 $\bar{t}\in(0,\frac{2}{L})$
精确线搜索
回溯法( $s\in\mathbb{R}_{++},\alpha\in(0,1),\beta\in(0,1)$ )

那么
$f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right) \geq M\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}$
其中
$\begin{cases} \bar{t}\left(1-\frac{\bar{t} L}{2}\right) & \text { 固定步长 } \\ \frac{1}{2 L} & \text { 精确线搜索 } \\ \alpha \min \left\{s, \frac{2(1-\alpha) \beta}{L}\right\} & \text {回溯法 } \end{cases}$

梯度方法收敛性

设 $f\in C_{L}^{1,1}(\mathbb{R}^{n})$
设 $\{\mathbf{x}_k\}_{k\ge 0}$ 为梯度方法产生在解决
$\min\limits_{\mathbf{x}\in\mathbb{R}^n}f(\mathbf{x})$
产生的序列，使用的步长

固定步长 $\bar{t}\in(0,\frac{2}{L})$
精确线搜索
回溯法( $s\in\mathbb{R}_{++},\alpha\in(0,1),\beta\in(0,1)$ )

假设 $f$ 有下界，即 $\exists m\in \mathbb{R},\forall \mathbf{x}\in \mathbb{R}^n,f(\mathbf{x})>m$
那么有
a)序列 $\{f(\mathbf{x}_k)\}_{k\ge 0}$ 单调不增，并且 $\forall k\ge 0,f(\mathbf{x}_{k+1})<f(\mathbf{x}_k)$ ,除非 $\nabla f(\mathbf{x}_k)=0$
b)当 $k\to \infty,\nabla f(\mathbf{x}_k)\to 0$
证明：
a)
$f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right) \geq M\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}\ge0$
$M > 0$ ,如果 $f\left(\mathbf{x}_{k}\right)=f\left(\mathbf{x}_{k+1}\right)$ ,那么 $\nabla f\left(\mathbf{x}_{k}\right)=0$

b)
$\{f(\mathbf{x}_k)\}_{k\ge 0}$ 单调递减有下界，所以收敛
$k\to \infty,f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right)$ 那么 $k\to \infty,\nabla f(\mathbf{x}_k)\to 0$

梯度的范数收敛速率

设 $\{f(\mathbf{x}_k)\}_{k\ge 0}$ 收敛到 $f^{*}$ ，则
$\min _{k=0,1, \ldots, n}\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\| \leq \sqrt{\frac{f\left(\mathbf{x}_{0}\right)-f^{*}}{M(n+1)}}$
其中 $\begin{cases} \bar{t}\left(1-\frac{\bar{t} L}{2}\right) & \text { 固定步长 } \\ \frac{1}{2 L} & \text { 精确线搜索 } \\ \alpha \min \left\{s, \frac{2(1-\alpha) \beta}{L}\right\} & \text {回溯法 } \end{cases}$

证明：
根据
$f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right) \geq M\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}$
有
$f\left(\mathbf{x}_{0}\right)-f^{*} \geq M\sum_{k=0}^{n}\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}$
显然 $\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}\ge \min\limits_{k=0,1,\cdots,n}\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}$
所以
$f\left(\mathbf{x}_{0}\right)-f^{*} \geq M(n+1)\min\limits_{k=0,1,\cdots,n}\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\|^{2}$
于是
$\min _{k=0,1, \ldots, n}\left\|\nabla f\left(\mathbf{x}_{k}\right)\right\| \leq \sqrt{\frac{f\left(\mathbf{x}_{0}\right)-f^{*}}{M(n+1)}}$

猜你喜欢

Java中的＜＜、＞＞、＞＞＞运算符
WinFrom 控件属性小结
如何用ant将JSP项目打成war包
LinuxQT+第三方库配置
Atitit 命令行执行springboot程序目录 1.1. 执行spel表达式，调用app main，获取context1 1.2. 直接在Application main函数内执行1
CSS绝对定位和相对定位 position: absolute/relative
Python视觉深度学习系列教程第一卷第12章训练首个卷积神经网络
几种更新(Update语句)查询的方法
Coredump-X: Race Condition: 多线程场景2：多线程使用File *fileP
Kali Linux安装go语言环境详解
Spring事务扩展篇
php5-fpm以及fcgiwrap在ubuntu下的安装方法
YOLOv7改进结构系列：最新结合用于小目标的新CNN卷积构建块
Java移动文件到另外一个目录
Python 迭代器切片
神奇的Content-Type——在JSON中玩转XXE攻击

相关主题

Go学习入门
优化算法学习
机器学习之深度学习
ssh学习

zl程序教程

当前栏目

下降法(Descent Directions Method)学习

目标

下降方向

性质

Lipschitz连续

定理

下降法

步长

固定步长

精确线搜索算法

非精确线搜索算法

Armijo准则

存在性证明

Goldstein准则

Wolfe准则

存在性

步骤

收敛性

推论

回溯法

梯度方法

引理

梯度方法框架

收敛性

下降引理

充分下降引理

固定步长

精确线搜索

回溯法

梯度方法的充分下降

梯度方法收敛性

梯度的范数收敛速率

相关文章