zl程序教程

您现在的位置是:首页 >  工具

当前栏目

凸优化学习2

学习 优化
2023-09-14 09:06:48 时间

这回的问题是
 (P)  min ⁡ f ( x )  s.t.  x ∈ C \begin{array}{lll} \text { (P) } & \min & f(\mathbf{x}) \\ & \text { s.t. } & x \in C \end{array}  (P) min s.t. f(x)xC
其中 f f f是一个定义在闭凸集 C C C上的连续可微函数。

稳定

稳定点定义

f f f是一个定义在闭凸集 C C C上的连续可微函数
x ∗ ∈ C \mathbf{x}^*\in C xC,如果 ∀ x ∈ C , ∇ f ( x ∗ ) T ( x − x ∗ ) ≥ 0 \forall \mathbf{x}\in C,\nabla f(\mathbf{x}^*)^T(\mathbf{x}-\mathbf{x}^*)\ge 0 xC,f(x)T(xx)0
则称 x ∗ ∈ C \mathbf{x}^*\in C xC是一个稳定点(stationary point)

定理1

f f f是一个定义在闭凸集 C C C上的连续可微函数
x ∗ \mathbf{x}^* x是(P)一个局部最小值,则 x ∗ \mathbf{x}^* x是(P)的一个稳定点

证明:
假设 x ∗ \mathbf{x}^* x不是一个稳定点,则
∃ x ∈ C , ∇ f ( x ∗ ) T ( x − x ∗ ) < 0 \exists x \in C,\nabla f(\mathbf{x}^*)^T(\mathbf{x}-\mathbf{x}^*)<0 xC,f(x)T(xx)<0
d = x − x ∗ \mathbf{d}=\mathbf{x}-\mathbf{x}^* d=xx,
f ′ ( x ∗ , d ) < 0 f'(\mathbf{x}^*,\mathbf{d})<0 f(x,d)<0
所以 ∃ ϵ > 0 , ∀ t ∈ ( 0 , ϵ ) , f ( x ∗ + t d ) < f ( x ∗ ) \exists \epsilon>0,\forall t\in (0,\epsilon),f(\mathbf{x}^*+t\mathbf{d})<f(\mathbf{x}^*) ϵ>0,t(0,ϵ),f(x+td)<f(x)
因为 C C C是一个凸集,
所以 x ∗ + t d = ( 1 − t ) x ∗ + t x ∈ C \mathbf{x}^*+t\mathbf{d}=(1-t)\mathbf{x}^*+t\mathbf{x}\in C x+td=(1t)x+txC
所以 x ∗ \mathbf{x}^* x不是局部最小点,矛盾

定理2

f f f是一个定义在闭凸集 C C C上的连续可微凸函数
x ∗ \mathbf{x}^* x是一个稳定点当且仅当 x ∗ \mathbf{x}^* x是(P)的最优解

证明:
必要性和定理1一样
充分性:设 x ∗ \mathbf{x}^* x是(P)的一个稳定点,设 x ∈ C \mathbf{x}\in C xC,则
f ( x ) ≥ f ( x ∗ ) + ∇ f ( x ∗ ) T ( x − x ∗ ) ≥ f ( x ∗ ) f(\mathbf{x})\ge f(\mathbf{x}^*)+\nabla f(\mathbf{x}^*)^T(\mathbf{x}-\mathbf{x}^*)\ge f(\mathbf{x}^*) f(x)f(x)+f(x)T(xx)f(x)
所以 x ∗ \mathbf{x}^* x是最优解

正交投影算子

投影第二定理

C C C是一个闭凸集, x ∈ R n \mathbf{x}\in \mathbb{R}^n xRn,
z = P C ( x ) \mathbf{z}=P_C(\mathbf{x}) z=PC(x)当且仅当
( x − z ) T ( y − z ) ≤ 0 ,   ∀ y ∈ C (\mathbf{x}-\mathbf{z})^T(\mathbf{y}-\mathbf{z})\le 0,\ \forall \mathbf{y}\in C (xz)T(yz)0, yC

证明:
z = P C ( x ) \mathbf{z}=P_C(\mathbf{x}) z=PC(x)当且仅当他是
min ⁡ g ( y ) ≡ ∥ y − x ∥ 2  s.t.  y ∈ C . \begin{array}{ll} \min & g(y) \equiv\|y-x\|^{2} \\ \text { s.t. } & y \in C . \end{array} min s.t. g(y)yx2yC.
的最优解
根据定理2,他是一个稳定点
所以
∇ g ( z ) T ( y − z ) ≥ 0 ,   ∀ y ∈ C \nabla g(\mathbf{z})^T(\mathbf{y}-\mathbf{z})\ge 0,\ \forall \mathbf{y}\in C g(z)T(yz)0, yC
于是
( x − z ) T ( y − z ) ≤ 0 ,   ∀ y ∈ C (\mathbf{x}-\mathbf{z})^T(\mathbf{y}-\mathbf{z})\le 0,\ \forall \mathbf{y}\in C (xz)T(yz)0, yC

定理3

C C C是一个闭凸集,则
1. ∀ v , w ∈ R n \forall \mathbf{v},\mathbf{w}\in\mathbb{R}^n v,wRn
( P C ( v ) − P C ( w ) ) T ( v − w ) ≥ ∥ P C ( v ) − P C ( w ) ∥ 2 \left(P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right)^{T}(\mathbf{v}-\mathbf{w}) \geq\left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\|^{2} (PC(v)PC(w))T(vw)PC(v)PC(w)2
2. ∀ v , w ∈ R n \forall \mathbf{v},\mathbf{w}\in\mathbb{R}^n v,wRn
∥ P C ( v ) − P C ( w ) ∥ ≤ ∥ v − w ∥ \left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\| \leq\|\mathbf{v}-\mathbf{w}\| PC(v)PC(w)vw
证明:
1.
根据投影第二定理
( v − P C ( v ) ) T ( P C ( w ) − P C ( v ) ) ≤ 0 ( w − P C ( w ) ) T ( P C ( v ) − P C ( w ) ) ≤ 0 \left(\mathbf{v}-P_{C}(\mathbf{v})\right)^{T}\left(P_{C}(\mathbf{w})-P_{C}(\mathbf{v})\right) \leq 0\\ \left(\mathbf{w}-P_{C}(\mathbf{w})\right)^{T}\left(P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right) \leq 0 (vPC(v))T(PC(w)PC(v))0(wPC(w))T(PC(v)PC(w))0
加起来得
( P C ( w ) − P C ( v ) ) T ( v − w + P C ( w ) − P C ( v ) ) ≤ 0 \left(P_{C}(\mathbf{w})-P_{C}(\mathbf{v})\right)^{T}\left(\mathbf{v}-\mathbf{w}+P_{C}(\mathbf{w})-P_{C}(\mathbf{v})\right) \leq 0 (PC(w)PC(v))T(vw+PC(w)PC(v))0
进而
( P C ( v ) − P C ( w ) ) T ( v − w ) ≥ ∥ P C ( v ) − P C ( w ) ∥ 2 \left(P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right)^{T}(\mathbf{v}-\mathbf{w}) \geq\left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\|^{2} (PC(v)PC(w))T(vw)PC(v)PC(w)2
2.
如果 P C ( v ) = P C ( w ) P_{C}(\mathbf{v})=P_{C}(\mathbf{w}) PC(v)=PC(w),显然成立,
如果 P C ( v ) ≠ P C ( w ) P_{C}(\mathbf{v})\neq P_{C}(\mathbf{w}) PC(v)=PC(w)
根据柯西不等式
( P C ( v ) − P C ( w ) ) T ( v − w ) ≤ ∥ P C ( v ) − P C ( w ) ∥ ⋅ ∥ v − w ∥ , \left(P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right)^{T}(\mathbf{v}-\mathbf{w}) \leq\left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\| \cdot\|\mathbf{v}-\mathbf{w}\|, (PC(v)PC(w))T(vw)PC(v)PC(w)vw,
于是
∥ P C ( v ) − P C ( w ) ∥ 2 ≤ ∥ P C ( v ) − P C ( w ) ∥ ⋅ ∥ v − w ∥   ∥ P C ( v ) − P C ( w ) ∥ ≤ ∥ v − w ∥ \left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\|^{2} \leq\left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\| \cdot\|\mathbf{v}-\mathbf{w}\| \ \\ \left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\| \leq\|\mathbf{v}-\mathbf{w}\| PC(v)PC(w)2PC(v)PC(w)vw PC(v)PC(w)vw

定理4

f f f是一个定义在闭凸集 C C C的连续可微的函数
s > 0 s>0 s>0,则 x ∗ \mathbf{x}^* x是问题(P)的稳定点,
当且仅当
x ∗ = P C ( x ∗ − s ∇ f ( x ∗ ) ) \mathbf{x}^{*}=P_{C}\left(\mathbf{x}^{*}-s \nabla f\left(\mathbf{x}^{*}\right)\right) x=PC(xsf(x))
证明:
根据投影第二定理 x ∗ = P C ( x ∗ − s ∇ f ( x ∗ ) ) \mathbf{x}^{*}=P_{C}\left(\mathbf{x}^{*}-s \nabla f\left(\mathbf{x}^{*}\right)\right) x=PC(xsf(x))
当且仅当
( x ∗ − s ∇ f ( x ∗ ) − x ∗ ) T ( x − x ∗ ) ≤ 0   ∀ x ∈ C \left(\mathbf{x}^{*}-s \nabla f\left(\mathbf{x}^{*}\right)-\mathbf{x}^{*}\right)^{T}\left(\mathbf{x}-\mathbf{x}^{*}\right) \leq 0\ \forall \mathbf{x}\in C (xsf(x)x)T(xx)0 xC
进而
∇ f ( x ∗ ) T ( x − x ∗ ) ≥ 0 ,   ∀ x ∈ C \nabla f\left(\mathbf{x}^{*}\right)^{T}\left(\mathbf{x}-\mathbf{x}^{*}\right) \geq 0, \ \forall \mathbf{x}\in C f(x)T(xx)0, xC
所以是一个稳定点

梯度投影法

随机选一个初始点 x 0 ∈ C \mathbf{x}_0\in C x0C
a)用线搜索选择一个步长 t k t_k tk
b) x k + 1 = P C ( x k − t k ∇ f ( x k ) ) \mathbf{x}_{k+1}=P_{C}\left(\mathbf{x}_{k}-t_{k} \nabla f\left(\mathbf{x}_{k}\right)\right) xk+1=PC(xktkf(xk))
c)如果 ∥ x k − x k + 1 ∥ ≤ ϵ \|\mathbf{x}_k-\mathbf{x}_{k+1}\|\le \epsilon xkxk+1ϵ,则输出 x k + 1 \mathbf{x}_{k+1} xk+1

其实这和我们的梯度方法差不都,只不过普通的梯度方法可能会超出这个 C C C,所以梯度投影法把他再投影回来

约束问题的充分下降引理

f ∈ C L 1 , 1 ( C ) f\in C_{L}^{1,1}(C) fCL1,1(C)
其中 C C C是一个闭凸集
∀ x ∈ C , t ∈ ( 0 , 2 L ) \forall \mathbf{x}\in C,t\in(0,\frac{2}{L}) xC,t(0,L2),
f ( x ) − f ( P C ( x − t ∇ f ( x ) ) ) ≥ t ( 1 − L t 2 ) ∥ 1 t ( x − P C ( x − t ∇ f ( x ) ) ) ∥ 2 f(\mathbf{x})-f\left(P_{C}(\mathbf{x}-t \nabla f(\mathbf{x}))\right) \geq t\left(1-\frac{L t}{2}\right)\left\|\frac{1}{t}\left(\mathbf{x}-P_{C}(\mathbf{x}-t \nabla f(\mathbf{x}))\right)\right\|^{2} f(x)f(PC(xtf(x)))t(12Lt)t1(xPC(xtf(x)))2
证明:
x + = P C ( x − t ∇ f ( x ) ) \mathbf{x}^{+}=P_{C}(\mathbf{x}-t \nabla f(\mathbf{x})) x+=PC(xtf(x))
根据下降引理
f ( x + ) ≤ f ( x ) + ⟨ ∇ f ( x ) , x + − x ⟩ + L 2 ∥ x − x + ∥ 2 f\left(\mathbf{x}^{+}\right) \leq f(\mathbf{x})+\left\langle\nabla f(\mathbf{x}), \mathbf{x}^{+}-\mathbf{x}\right\rangle+\frac{L}{2}\left\|\mathbf{x}-\mathbf{x}^{+}\right\|^{2} f(x+)f(x)+f(x),x+x+2Lxx+2
根据投影第二定理
⟨ x − t ∇ f ( x ) − x + , x − x + ⟩ ≤ 0 ⟨ ∇ f ( x ) , x + − x ⟩ ≤ − 1 t ∥ x + − x ∥ 2 \begin{aligned} \left\langle\mathbf{x}-t \nabla f(\mathbf{x})-\mathbf{x}^{+}, \mathbf{x}-\mathbf{x}^{+}\right\rangle &\leq 0\\ \left\langle\nabla f(\mathbf{x}), \mathbf{x}^{+}-\mathbf{x}\right\rangle &\leq-\frac{1}{t}\left\|\mathbf{x}^{+}-\mathbf{x}\right\|^{2} \end{aligned} xtf(x)x+,xx+f(x),x+x0t1x+x2
结合一下
f ( x ) − f ( P C ( x − t ∇ f ( x ) ) ) ≥ t ( 1 − L t 2 ) ∥ 1 t ( x − P C ( x − t ∇ f ( x ) ) ) ∥ 2 f(\mathbf{x})-f\left(P_{C}(\mathbf{x}-t \nabla f(\mathbf{x}))\right) \geq t\left(1-\frac{L t}{2}\right)\left\|\frac{1}{t}\left(\mathbf{x}-P_{C}(\mathbf{x}-t \nabla f(\mathbf{x}))\right)\right\|^{2} f(x)f(PC(xtf(x)))t(12Lt)t1(xPC(xtf(x)))2

梯度映射定义

G M ( x ) = M [ x − P C ( x − 1 M ∇ f ( x ) ) ] G_{M}(\mathbf{x})=M\left[\mathbf{x}-P_{C}\left(\mathbf{x}-\frac{1}{M} \nabla f(\mathbf{x})\right)\right] GM(x)=M[xPC(xM1f(x))]
其中 M > 0 M>0 M>0

所以下降引理也可以写成
f ( x ) − f ( P C ( x − t ∇ f ( x ) ) ) ≥ t ( 1 − L t 2 ) ∥ G 1 t ( x ) ∥ 2 f(\mathbf{x})-f\left(P_{C}(\mathbf{x}-t \nabla f(\mathbf{x}))\right) \geq t\left(1-\frac{L t}{2}\right)\left\|G_{\frac{1}{t}}(\mathbf{x})\right\|^{2} f(x)f(PC(xtf(x)))t(12Lt)Gt1(x)2

定理6

f f f是定义在闭凸集 C C C上的连续可微函数
L 1 ≥ L 2 L_1\ge L_2 L1L2,则 ∀ x ∈ R n \forall \mathbf{x}\in \mathbb{R}^n xRn
∥ G L 1 ( x ) ∥ ≥ ∥ G L 2 ( x ) ∥ \left\|G_{L_{1}}(\mathbf{x})\right\| \geq\left\|G_{L_{2}}(\mathbf{x})\right\| GL1(x)GL2(x)
或者
∥ G L 1 ( x ) ∥ L 1 ≤ ∥ G L 2 ( x ) ∥ L 2 \frac{\left\|G_{L_{1}}(\mathbf{x})\right\|}{L_{1}} \leq \frac{\left\|G_{L_{2}}(\mathbf{x})\right\|}{L_{2}} L1GL1(x)L2GL2(x)

证明:利用投影第二定理
∀ v ∈ R n , w ∈ C \forall \mathbf{v}\in \mathbb{R}^n,\mathbf{w}\in C vRn,wC
⟨ v − P C ( v ) , P C ( v ) − w ⟩ ≥ 0 \left\langle\mathbf{v}-P_{C}(\mathbf{v}), P_{C}(\mathbf{v})-\mathbf{w}\right\rangle \geq 0 vPC(v),PC(v)w0
v = x − 1 L 1 ∇ f ( x ) , w = P C ( x − 1 L 2 ∇ f ( x ) ) \mathbf{v}=\mathbf{x}-\frac{1}{L_{1}} \nabla f(\mathbf{x}),\mathbf{w}=P_{C}\left(\mathbf{x}-\frac{1}{L_{2}} \nabla f(\mathbf{x})\right) v=xL11f(x),w=PC(xL21f(x))
于是
⟨ x − 1 L 1 ∇ f ( x ) − P C ( x − 1 L 1 ∇ f ( x ) ) , P C ( x − 1 L 1 ∇ f ( x ) ) − P C ( x − 1 L 2 ∇ f ( x ) ) ⟩ ≥ 0 \left\langle\mathrm{x}-\frac{1}{L_{1}} \nabla f(\mathrm{x})-P_{C}\left(\mathrm{x}-\frac{1}{L_{1}} \nabla f(\mathrm{x})\right), P_{C}\left(\mathrm{x}-\frac{1}{L_{1}} \nabla f(\mathrm{x})\right)-P_{C}\left(\mathrm{x}-\frac{1}{L_{2}} \nabla f(\mathrm{x})\right)\right\rangle \geq 0 xL11f(x)PC(xL11f(x)),PC(xL11f(x))PC(xL21f(x))0
或者
⟨ 1 L 1 G L 1 ( x ) − 1 L 1 ∇ f ( x ) , 1 L 2 G L 2 ( x ) − 1 L 1 G L 1 ( x ) ⟩ ≥ 0 \left\langle\frac{1}{L_{1}} G_{L_{1}}(\mathbf{x})-\frac{1}{L_{1}} \nabla f(\mathbf{x}), \frac{1}{L_{2}} G_{L_{2}}(\mathbf{x})-\frac{1}{L_{1}} G_{L_{1}}(\mathbf{x})\right\rangle \geq 0 L11GL1(x)L11f(x),L21GL2(x)L11GL1(x)0
轮换一下 L 1 , L 2 L_1,L_2 L1,L2
⟨ 1 L 2 G L 2 ( x ) − 1 L 2 ∇ f ( x ) , 1 L 1 G L 1 ( x ) − 1 L 2 G L 2 ( x ) ⟩ ≥ 0 \left\langle\frac{1}{L_{2}} G_{L_{2}}(\mathbf{x})-\frac{1}{L_{2}} \nabla f(\mathbf{x}), \frac{1}{L_{1}} G_{L_{1}}(\mathbf{x})-\frac{1}{L_{2}} G_{L_{2}}(\mathbf{x})\right\rangle \geq 0 L21GL2(x)L21f(x),L11GL1(x)L21GL2(x)0
( 1 ) ∗ L 1 + ( 2 ) ∗ L 2 (1)*L_1+(2)*L_2 (1)L1+(2)L2
⟨ G L 1 ( x ) − G L 2 ( x ) , 1 L 2 G L 2 ( x ) − 1 L 1 G L 1 ( x ) ⟩ ≥ 0 , \left\langle G_{L_{1}}(\mathbf{x})-G_{L_{2}}(\mathbf{x}), \frac{1}{L_{2}} G_{L_{2}}(\mathbf{x})-\frac{1}{L_{1}} G_{L_{1}}(\mathbf{x})\right\rangle \geq 0, GL1(x)GL2(x),L21GL2(x)L11GL1(x)0,
整理得
1 L 1 ∥ G L 1 ( x ) ∥ 2 + 1 L 2 ∥ G L 2 ( x ) ∥ 2 ≤ ( 1 L 1 + 1 L 2 ) G L 1 ( x ) T G L 2 ( x ) \frac{1}{L_{1}}\left\|G_{L_{1}}(\mathbf{x})\right\|^{2}+\frac{1}{L_{2}}\left\|G_{L_{2}}(\mathbf{x})\right\|^{2} \leq\left(\frac{1}{L_{1}}+\frac{1}{L_{2}}\right) G_{L_{1}}(\mathbf{x})^{T} G_{L_{2}}(\mathbf{x}) L11GL1(x)2+L21GL2(x)2(L11+L21)GL1(x)TGL2(x)
利用柯西不等式
1 L 1 ∥ G L 1 ( x ) ∥ 2 + 1 L 2 ∥ G L 2 ( x ) ∥ 2 ≤ ( 1 L 1 + 1 L 2 ) ∥ G L 1 ( x ) ∥ ⋅ ∥ G L 2 ( x ) ∥ \frac{1}{L_{1}}\left\|G_{L_{1}}(\mathbf{x})\right\|^{2}+\frac{1}{L_{2}}\left\|G_{L_{2}}(\mathbf{x})\right\|^{2} \leq\left(\frac{1}{L_{1}}+\frac{1}{L_{2}}\right)\left\|G_{L_{1}}(\mathbf{x})\right\| \cdot\left\|G_{L_{2}}(\mathbf{x})\right\| L11GL1(x)2+L21GL2(x)2(L11+L21)GL1(x)GL2(x)
如果 G L 2 ( x ) = 0 G_{L_2}(\mathbf{x})=0 GL2(x)=0,则结论成立
如果 G L 2 ( x ) ≠ 0 G_{L_2}(\mathbf{x})\neq 0 GL2(x)=0
t = ∥ G L 1 ( x ) ∥ ∥ G L 2 ( x ) ∥ t=\frac{\left\|G_{L_{1}}(\mathrm{x})\right\|}{\left\|G_{L_{2}}(\mathrm{x})\right\|} t=GL2(x)GL1(x)

1 L 1 t 2 − ( 1 L 1 + 1 L 2 ) t + 1 L 2 ≤ 0 ( t − 1 ) ( 1 L 1 t − 1 L 2 ) ≤ 0 1 ≤ t ≤ L 1 L 2 \begin{aligned} \frac{1}{L_1}t^2-(\frac{1}{L_1}+\frac{1}{L_2})t+\frac{1}{L_2}&\le 0\\ (t-1)(\frac{1}{L_1}t-\frac{1}{L_2})&\le 0\\ 1\le t\le\frac{L_1}{L_2} \end{aligned} L11t2(L11+L21)t+L21(t1)(L11tL21)1tL2L100
于是
∥ G L 2 ( x ) ∥ ≤ ∥ G L 1 ( x ) ∥ ≤ L 1 L 2 ∥ G L 2 ( x ) ∥ . \left\|G_{L_{2}}(\mathbf{x})\right\| \leq\left\|G_{L_{1}}(\mathbf{x})\right\| \leq \frac{L_{1}}{L_{2}}\left\|G_{L_{2}}(\mathbf{x})\right\| . GL2(x)GL1(x)L2L1GL2(x).

回溯法

设参数 ( s , α , β ) (s,\alpha,\beta) (s,α,β),其中 s > 0 , α ∈ ( 0 , 1 ) , β ∈ ( 0 , 1 ) s>0,\alpha\in(0,1),\beta \in (0,1) s>0,α(0,1),β(0,1)
一开始 t k = s t_k=s tk=s

f ( x k ) − f ( P C ( x k − t k ∇ f ( x k ) ) ) < α t k ∥ G 1 t ( x k ) ∥ 2 f\left(\mathbf{x}_{k}\right)-f\left(P_{C}\left(\mathbf{x}_{k}-t_{k} \nabla f\left(\mathbf{x}_{k}\right)\right)\right)<\alpha t_{k}\left\|G_{\frac{1}{t}}\left(\mathbf{x}_{k}\right)\right\|^{2} f(xk)f(PC(xktkf(xk)))<αtkGt1(xk)2
时,
t k = β t k t_k=\beta t_k tk=βtk
也就是说 t k = s β i k t_k=s\beta^{i_k} tk=sβik,其中 i k i_k ik是满足
f ( x k ) − f ( P C ( x k − s β i k ∇ f ( x k ) ) ) ≥ α s β i k ∥ G 1 s β i k ( x k ) ∥ 2 f\left(\mathbf{x}_{k}\right)-f\left(P_{C}\left(\mathbf{x}_{k}-s \beta^{i_{k}} \nabla f\left(\mathbf{x}_{k}\right)\right)\right) \geq \alpha s \beta^{i_{k}}\left\|G_{\frac{1}{s \beta^{i} k}}\left(\mathbf{x}_{k}\right)\right\|^{2} f(xk)f(PC(xksβikf(xk)))αsβikGsβik1(xk)2
的最小非负整数

如果 t k = s t_k=s tk=s满足条件
显然 t k ≥ s t_k\ge s tks
如果不满足,则 t k = s β i k t_k=s\beta^{i_k} tk=sβik时才满足条件
也就是说 t k β \frac{t_k}{\beta} βtk是不满足条件的

f ( x k ) − f ( P C ( x k − t k β ∇ f ( x k ) ) ) < α t k ∥ G β t k ( x k ) ∥ 2 f\left(\mathbf{x}_{k}\right)-f\left(P_{C}\left(\mathbf{x}_{k}-\frac{t_k}{\beta} \nabla f\left(\mathbf{x}_{k}\right)\right)\right)<\alpha t_{k}\left\|G_{\frac{\beta}{t_k}}\left(\mathbf{x}_{k}\right)\right\|^{2} f(xk)f(PC(xkβtkf(xk)))<αtkGtkβ(xk)2

x = x k , t = t k β x=x_k,t=\frac{t_k}{\beta} x=xk,t=βtk代入充分下降引理得
f ( x k ) − f ( P C ( x k − t k β ∇ f ( x k ) ) ≥ t k β ( 1 − L t k 2 β ) ∥ G β t k ( x k ) ∥ 2 f\left(\mathbf{x}_{k}\right)-f (P_{C}\left(\mathbf{x}_{k}-\frac{t_k}{\beta} \nabla f\left(\mathbf{x}_{k}\right)\right) \geq \frac{t_k}{\beta}\left(1-\frac{L t_k}{2\beta}\right)\left\|G_{\frac{\beta}{t_k}}\left(\mathbf{x}_{k}\right)\right\|^{2} f(xk)f(PC(xkβtkf(xk))βtk(12βLtk)Gtkβ(xk)2
取这两个式子的右边,得
t k β ( 1 − L t k 2 β ) ∥ G β t k ( x k ) ∥ 2 < α t k ∥ G β t k ( x k ) ∥ 2 ⇒ t k ≥ 2 ( 1 − α ) β L \frac{t_k}{\beta}\left(1-\frac{L t_k}{2\beta}\right)\left\|G_{\frac{\beta}{t_k}}\left(\mathbf{x}_{k}\right)\right\|^{2} <\alpha t_{k}\left\|G_{\frac{\beta}{t_k}}\left(\mathbf{x}_{k}\right)\right\|^{2} \Rightarrow t_k\ge \frac{2(1-\alpha)\beta}{L} βtk(12βLtk)Gtkβ(xk)2<αtkGtkβ(xk)2tkL2(1α)β
综上所述
t k ≥ min ⁡ { s , 2 ( 1 − α ) β L } t_{k} \geq \min \left\{s, \frac{2(1-\alpha) \beta}{L}\right\} tkmin{s,L2(1α)β}

引理1

考虑问题(P)
C C C是一个闭凸集
f ∈ C L 1 , 1 ( C ) f\in C_L^{1,1}(C) fCL1,1(C)有下界
{ x k } k ≥ 0 \{\mathbf{x}_k\}_{k\ge 0} {xk}k0是利用梯度投影法产生的序列,
其中步长用的要么是固定步长 t k = t ˉ ∈ ( 0 , 2 L ) t_k=\bar{t}\in(0,\frac{2}{L}) tk=tˉ(0,L2),要么是回溯法(其中参数 ( s , α , β ) (s,\alpha,\beta) (s,α,β)满足 s > 0 , α ∈ ( 0 , 1 ) , β ∈ ( 0 , 1 ) s>0,\alpha\in(0,1),\beta\in(0,1) s>0,α(0,1),β(0,1)
那么 ∀ k ≥ 0 \forall k\ge 0 k0
f ( x k ) − f ( x k + 1 ) ≥ M ∥ G d ( x k ) ∥ 2 f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right) \geq M\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2} f(xk)f(xk+1)MGd(xk)2
其中
M = { t ˉ ( 1 − t ˉ L 2 )  固定步长  α min ⁡ { s , 2 ( 1 − α ) β L }  回溯法  M= \begin{cases}\bar{t}\left(1-\frac{\bar{t} L}{2}\right) & \text { 固定步长 } \\ \alpha \min \left\{s, \frac{2(1-\alpha) \beta}{L}\right\} & \text { 回溯法 }\end{cases} M=tˉ(12tˉL)αmin{s,L2(1α)β} 固定步长  回溯法 

d = { 1 / t ˉ  固定步长  1 / s  回溯法  d= \begin{cases}1 / \bar{t} & \text { 固定步长 } \\ 1 / s & \text { 回溯法 }\end{cases} d={1/tˉ1/s 固定步长  回溯法 

证明:
固定步长:直接代入,成立

回溯法:
因为回溯法, t k t_k tk其实是越来越小的,所以, t k ≤ s t_k\le s tks
根据定理6
∥ G 1 / t k ( x k ) ∥ ≥ ∥ G 1 / s ( x k ) ∥ \left\|G_{1 / t_{k}}\left(\mathbf{x}_{k}\right)\right\| \geq\left\|G_{1 / s}\left(\mathbf{x}_{k}\right)\right\| G1/tk(xk)G1/s(xk)
所以
f ( x k ) − f ( x k + 1 ) ≥ α t k ∥ G 1 t k ( x k ) ∥ 2 ≥ α min ⁡ { s , 2 ( 1 − α ) β L } ∥ G 1 / s ( x k ) ∥ 2 f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right) \geq \alpha t_k\left\|G_{\frac{1}{t_k}}\left(\mathbf{x}_{k}\right)\right\|^{2}\ge \alpha \min \left\{s, \frac{2(1-\alpha) \beta}{L}\right\}\left\|G_{1 / s}\left(\mathbf{x}_{k}\right)\right\|^2 f(xk)f(xk+1)αtkGtk1(xk)2αmin{s,L2(1α)β}G1/s(xk)2
成立

收敛性

考虑问题(P)
C C C是一个闭凸集
f ∈ C L 1 , 1 ( C ) f\in C_L^{1,1}(C) fCL1,1(C)有下界
{ x k } k ≥ 0 \{\mathbf{x}_k\}_{k\ge 0} {xk}k0是利用梯度投影法产生的序列,
其中步长用的要么是固定步长 t k = t ˉ ∈ ( 0 , 2 L ) t_k=\bar{t}\in(0,\frac{2}{L}) tk=tˉ(0,L2),要么是回溯法(其中参数 ( s , α , β ) (s,\alpha,\beta) (s,α,β)满足 s > 0 , α ∈ ( 0 , 1 ) , β ∈ ( 0 , 1 ) s>0,\alpha\in(0,1),\beta\in(0,1) s>0,α(0,1),β(0,1)),那么
(a)序列 { f ( x k ) } \{f(\mathbf{x}_k)\} {f(xk)}单调不增,并且 f ( x k + 1 ) < f ( x k ) f(\mathbf{x}_{k+1})<f(\mathbf{x}_k) f(xk+1)<f(xk),除非 x k \mathbf{x}_k xk是一个稳定点
(b)当 k → ∞ k\to \infty k时, G d ( x k ) → 0 G_d(\mathbf{x}_k)\to 0 Gd(xk)0
其中 d = { 1 / t ˉ  固定步长  1 / s  回溯法  d= \begin{cases}1 / \bar{t} & \text { 固定步长 } \\ 1 / s & \text { 回溯法 }\end{cases} d={1/tˉ1/s 固定步长  回溯法 

证明:
(a)
由引理
f ( x k ) − f ( x k + 1 ) ≥ M ∥ G d ( x k ) ∥ 2 ≥ 0 f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right) \geq M\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2}\ge 0 f(xk)f(xk+1)MGd(xk)20
所以单调不增
当且仅当 G d ( x k ) = 0 G_{d}\left(\mathbf{x}_{k}\right)=0 Gd(xk)=0时取等
也就是说 x k \mathbf{x}_k xk是一个稳定点

(b)
因为 { f ( x k ) } \{f(\mathbf{x}_k)\} {f(xk)}单调递减有下界,收敛
所以 k → ∞ , f ( x k ) − f ( x k + 1 ) → 0 k\to \infty,f(\mathbf{x}_k)-f(\mathbf{x}_{k+1})\to 0 k,f(xk)f(xk+1)0
于是当 k → ∞ k\to \infty k时, G d ( x k ) → 0 G_d(\mathbf{x}_k)\to 0 Gd(xk)0

收敛速率

在上面的条件下
f ∗ f^* f是序列 { f ( x k ) } \{f(\mathbf{x}_k)\} {f(xk)}的极限,那么 ∀ n = 0 , 1 , 2 , ⋯ \forall n=0,1,2,\cdots n=0,1,2,
min ⁡ k = 0 , 1 , … , n ∥ G d ( x k ) ∥ ≤ f ( x 0 ) − f ∗ M ( n + 1 ) \min _{k=0,1, \ldots, n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\| \leq \sqrt{\frac{f\left(\mathbf{x}_{0}\right)-f^{*}}{M(n+1)}} k=0,1,,nminGd(xk)M(n+1)f(x0)f
其中
M = { t ˉ ( 1 − t ˉ L 2 )  固定步长  α min ⁡ { s , 2 ( 1 − α ) β L }  回溯法  M= \begin{cases}\bar{t}\left(1-\frac{\bar{t} L}{2}\right) & \text { 固定步长 } \\ \alpha \min \left\{s, \frac{2(1-\alpha) \beta}{L}\right\} & \text { 回溯法 }\end{cases} M=tˉ(12tˉL)αmin{s,L2(1α)β} 固定步长  回溯法 

d = { 1 / t ˉ  固定步长  1 / s  回溯法  d= \begin{cases}1 / \bar{t} & \text { 固定步长 } \\ 1 / s & \text { 回溯法 }\end{cases} d={1/tˉ1/s 固定步长  回溯法 

证明:
∑ k = 0 n ( f ( x k ) − f ( x k + 1 ) ) ≥ ∑ k = 0 n M ∥ G d ( x k ) ∥ 2 f ( x 0 ) − f ( x n + 1 ) ≥ M ∑ k = 0 n ∥ G d ( x k ) ∥ 2 \begin{aligned} \sum_{k=0}^{n}\left(f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right)\right) &\geq \sum_{k=0}^{n}M\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2}\\ f\left(\mathbf{x}_{0}\right)-f\left(\mathbf{x}_{n+1}\right) &\geq M \sum_{k=0}^{n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2} \end{aligned} k=0n(f(xk)f(xk+1))f(x0)f(xn+1)k=0nMGd(xk)2Mk=0nGd(xk)2
又因为 f ( x n + 1 ) ≥ f ∗ f(\mathbf{x}_{n+1})\ge f^* f(xn+1)f
所以
f ( x 0 ) − f ∗ ≥ f ( x 0 ) − f ( x n + 1 ) ≥ M ∑ k = 0 n ∥ G d ( x k ) ∥ 2 f\left(\mathbf{x}_{0}\right)-f^*\ge f\left(\mathbf{x}_{0}\right)-f\left(\mathbf{x}_{n+1}\right) \geq M \sum_{k=0}^{n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2} f(x0)ff(x0)f(xn+1)Mk=0nGd(xk)2
又因为
∑ k = 0 n ∥ G d ( x k ) ∥ 2 ≥ ( n + 1 ) min ⁡ k = 0 , 1 , … , n ∥ G d ( x k ) ∥ 2 \sum_{k=0}^{n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2}\ge (n+1) \min _{k=0,1, \ldots, n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2} k=0nGd(xk)2(n+1)k=0,1,,nminGd(xk)2
所以
f ( x 0 ) − f ∗ ≥ M ( n + 1 ) min ⁡ k = 0 , 1 , … , n ∥ G d ( x k ) ∥ 2 f\left(\mathbf{x}_{0}\right)-f^*\ge M(n+1) \min _{k=0,1, \ldots, n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2} f(x0)fM(n+1)k=0,1,,nminGd(xk)2
进而
min ⁡ k = 0 , 1 , … , n ∥ G d ( x k ) ∥ ≤ f ( x 0 ) − f ∗ M ( n + 1 ) \min _{k=0,1, \ldots, n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\| \leq \sqrt{\frac{f\left(\mathbf{x}_{0}\right)-f^{*}}{M(n+1)}} k=0,1,,nminGd(xk)M(n+1)f(x0)f

凸函数

 (P)  min ⁡ f ( x )  s.t.  x ∈ C \begin{array}{lll} \text { (P) } & \min & f(\mathbf{x}) \\ & \text { s.t. } & x \in C \end{array}  (P) min s.t. f(x)xC
其中 f f f是一个定义在闭凸集 C C C上的连续可微函数。
{ x k } k ≥ 0 \{\mathbf{x}_k\}_{k\ge 0} {xk}k0是梯度投影法用固定步长 t ˉ ∈ ( 0 , 1 L ] \bar{t}\in (0,\frac{1}{L}] tˉ(0,L1]产生的序列。
假设 X ∗ X^* X是最优解集,并且非空, f ∗ f^* f是最优解,则
(a) ∀ k ≥ 0 , x ∗ ∈ X ∗ \forall k\ge 0,\mathbf{x}^*\in X^* k0,xX
2 t ˉ ( f ( x k + 1 ) − f ( x ∗ ) ) ≤ ∥ x k − x ∗ ∥ 2 − ∥ x k + 1 − x ∗ ∥ 2 2 \bar{t}\left(f\left(\mathbf{x}_{k+1}\right)-f\left(\mathbf{x}^{*}\right)\right) \leq\left\|\mathbf{x}_{k}-\mathbf{x}^{*}\right\|^{2}-\left\|\mathbf{x}_{k+1}-\mathbf{x}^{*}\right\|^{2} 2tˉ(f(xk+1)f(x))xkx2xk+1x2
(b) ∀ n ≥ 0 \forall n\ge 0 n0
f ( x n ) − f ∗ ≤ ∥ x 0 − x ∗ ∥ 2 2 t ˉ n f\left(\mathbf{x}_{n}\right)-f^{*} \leq \frac{\left\|\mathbf{x}_{0}-\mathbf{x}^{*}\right\|^{2}}{2 \bar{t} n} f(xn)f2tˉnx0x2

证明:
(a)
由下降引理
f ( x k + 1 ) ≤ f ( x k ) + ⟨ ∇ f ( x k ) , x k + 1 − x k ⟩ + L 2 ∥ x k − x k + 1 ∥ 2 f\left(\mathbf{x}_{k+1}\right) \leq f\left(\mathbf{x}_{k}\right)+\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k+1}-\mathbf{x}_{k}\right\rangle+\frac{L}{2}\left\|\mathbf{x}_{k}-\mathbf{x}_{k+1}\right\|^{2} f(xk+1)f(xk)+f(xk),xk+1xk+2Lxkxk+12
根据凸函数的一节条件
f ( x k ) ≤ f ( x ∗ ) + ⟨ ∇ f ( x ∗ ) , x k − x ∗ ⟩ f(\mathbf{x}_k)\le f(\mathbf{x}^*)+\left\langle \nabla f(\mathbf{x}^*),\mathbf{x}_k-\mathbf{x}^* \right\rangle f(xk)f(x)+f(x),xkx

f ( x k + 1 ) ≤ f ( x ∗ ) + ⟨ ∇ f ( x k ) , x k − x ∗ ⟩ + ⟨ ∇ f ( x k ) , x k + 1 − x k ⟩ + L 2 ∥ x k − x k + 1 ∥ 2 . f\left(\mathbf{x}_{k+1}\right) \leq f\left(\mathbf{x}^{*}\right)+\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k}-\mathbf{x}^{*}\right\rangle+\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k+1}-\mathbf{x}_{k}\right\rangle+\frac{L}{2}\left\|\mathbf{x}_{k}-\mathbf{x}_{k+1}\right\|^{2} . f(xk+1)f(x)+f(xk),xkx+f(xk),xk+1xk+2Lxkxk+12.
根据第二投影定理
⟨ x k − t ˉ ∇ f ( x k ) − x k + 1 , x ∗ − x k + 1 ⟩ ≤ 0 \left\langle\mathbf{x}_{k}-\bar{t} \nabla f\left(\mathbf{x}_{k}\right)-\mathbf{x}_{k+1}, \mathbf{x}^{*}-\mathbf{x}_{k+1}\right\rangle \leq 0 xktˉf(xk)xk+1,xxk+10
于是
⟨ ∇ f ( x k ) , x k + 1 − x ∗ ⟩ ≤ 1 t ˉ ⟨ x k − x k + 1 , x k + 1 − x ∗ ⟩ \left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k+1}-\mathbf{x}^{*}\right\rangle \leq \frac{1}{\bar{t}}\left\langle\mathbf{x}_{k}-\mathbf{x}_{k+1}, \mathbf{x}_{k+1}-\mathbf{x}^{*}\right\rangle f(xk),xk+1xtˉ1xkxk+1,xk+1x
因为 t ˉ ≤ 1 L \bar{t}\le \frac{1}{L} tˉL1
f ( x k + 1 ) ≤ f ( x ∗ ) + ⟨ ∇ f ( x k ) , x k − x ∗ ⟩ + ⟨ ∇ f ( x k ) , x k + 1 − x k ⟩ + L 2 ∥ x k − x k + 1 ∥ 2 = f ( x ∗ ) + ⟨ ∇ f ( x k ) , x k + 1 − x ∗ ⟩ + L 2 ∥ x k − x k + 1 ∥ 2 ≤ f ( x ∗ ) + 1 t ˉ ⟨ x k − x k + 1 , x k + 1 − x ∗ ⟩ + L 2 ∥ x k − x k + 1 ∥ 2 ≤ f ( x ∗ ) + 1 t ˉ ⟨ x k − x k + 1 , x k + 1 − x ∗ ⟩ + 1 2 t ˉ ∥ x k − x k + 1 ∥ 2 = f ( x ∗ ) + 1 2 t ˉ ( ∥ x k − x ∗ ∥ 2 − ∥ x k + 1 − x ∗ ∥ 2 ) \begin{aligned} f\left(\mathbf{x}_{k+1}\right) & \leq f\left(\mathbf{x}^{*}\right)+\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k}-\mathbf{x}^{*}\right\rangle+\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k+1}-\mathbf{x}_{k}\right\rangle+\frac{L}{2}\left\|\mathbf{x}_{k}-\mathbf{x}_{k+1}\right\|^{2} \\ &=f\left(\mathbf{x}^{*}\right)+\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k+1}-\mathbf{x}^{*}\right\rangle+\frac{L}{2}\left\|\mathbf{x}_{k}-\mathbf{x}_{k+1}\right\|^{2} \\ & \leq f\left(\mathbf{x}^{*}\right)+\frac{1}{\bar{t}}\left\langle\mathbf{x}_{k}-\mathbf{x}_{k+1}, \mathbf{x}_{k+1}-\mathbf{x}^{*}\right\rangle+\frac{L}{2}\left\|\mathbf{x}_{k}-\mathbf{x}_{k+1}\right\|^{2} \\ & \leq f\left(\mathbf{x}^{*}\right)+\frac{1}{\bar{t}}\left\langle\mathbf{x}_{k}-\mathbf{x}_{k+1}, \mathbf{x}_{k+1}-\mathbf{x}^{*}\right\rangle+\frac{1}{2 \bar{t}}\left\|\mathbf{x}_{k}-\mathbf{x}_{k+1}\right\|^{2} \\ &=f\left(\mathbf{x}^{*}\right)+\frac{1}{2 \bar{t}}\left(\left\|\mathbf{x}_{k}-\mathbf{x}^{*}\right\|^{2}-\left\|\mathbf{x}_{k+1}-\mathbf{x}^{*}\right\|^{2}\right) \end{aligned} f(xk+1)f(x)+f(xk),xkx+f(xk),xk+1xk+2Lxkxk+12=f(x)+f(xk),xk+1x+2Lxkxk+12f(x)+tˉ1xkxk+1,xk+1x+2Lxkxk+12f(x)+tˉ1xkxk+1,xk+1x+2tˉ1xkxk+12=f(x)+2tˉ1(xkx2xk+1x2)
(b)
对(a)的结论进行累加
∑ k = 0 n − 1 ( ∥ x k + 1 − x ∗ ∥ 2 − ∥ x k − x ∗ ∥ 2 ) ≤ ∑ k = 0 n − 1 2 t ˉ ( f ( x ∗ ) − f ( x k + 1 ) ) ∥ x n − x ∗ ∥ 2 − ∥ x 0 − x ∗ ∥ 2 ≤ 2 n t ˉ ( f ( x ∗ ) − f ( x n ) ) \begin{aligned} \sum_{k=0}^{n-1}\left( \left\|\mathbf{x}_{k+1}-\mathbf{x}^{*}\right\|^{2}-\left\|\mathbf{x}_{k}-\mathbf{x}^{*}\right\|^{2}\right) &\leq \sum_{k=0}^{n-1}2 \bar{t}\left(f\left(\mathbf{x}^{*}\right)-f\left(\mathbf{x}_{k+1}\right)\right)\\ \left\|\mathbf{x}_{n}-\mathbf{x}^{*}\right\|^{2}-\left\|\mathbf{x}_{0}-\mathbf{x}^{*}\right\|^{2} &\leq 2n \bar{t}\left(f\left(\mathbf{x}^{*}\right)-f\left(\mathbf{x}_{n}\right)\right) \end{aligned} k=0n1(xk+1x2xkx2)xnx2x0x2k=0n12tˉ(f(x)f(xk+1))2ntˉ(f(x)f(xn))
因此
f ( x n ) − f ∗ ≤ ∥ x 0 − x ∗ ∥ 2 − ∥ x n − x ∗ ∥ 2 2 t ˉ n ≤ ∥ x 0 − x ∗ ∥ 2 2 t ˉ n f\left(\mathbf{x}_{n}\right)-f^{*} \leq \frac{\left\|\mathbf{x}_{0}-\mathbf{x}^{*}\right\|^{2}-\left\|\mathbf{x}_{n}-\mathbf{x}^{*}\right\|^{2}}{2 \bar{t} n} \leq \frac{\left\|\mathbf{x}_{0}-\mathbf{x}^{*}\right\|^{2}}{2 \bar{t} n} f(xn)f2tˉnx0x2xnx22tˉnx0x2

引理2

在刚才的条件下
产生的序列 { x k } k ≥ 0 \{\mathbf{x}_k\}_{k\ge 0} {xk}k0,对于 ∀ x ∗ ∈ X ∗ , k ≥ 0 \forall \mathbf{x}^*\in X^*,k\ge 0 xX,k0,有
∥ x k + 1 − x ∗ ∥ ≤ ∥ x k − x ∗ ∥ \left\|\mathrm{x}_{k+1}-\mathrm{x}^{*}\right\| \leq\left\|\mathrm{x}_{k}-\mathrm{x}^{*}\right\| xk+1xxkx
证明:
利用(a)的结论,显然成立

定理7

在刚才的条件下
{ x k } k ≥ 0 \{\mathbf{x}_k\}_{k\ge 0} {xk}k0是梯度投影法用固定步长 t ˉ ∈ ( 0 , 1 L ] \bar{t}\in (0,\frac{1}{L}] tˉ(0,L1]产生的序列,
则这个序列收敛到最优解

证明:
摸了

稀疏约束问题

min ⁡ f ( x )  (S)   s.t.  ∥ x ∥ 0 ≤ s \begin{array}{lll} & \min & f(\mathbf{x}) \\ \text { (S) } & \text { s.t. } & \|\mathbf{x}\|_{0} \leq s \end{array}  (S) min s.t. f(x)x0s
其中 f : R n → R f:\mathbb{R}^n\to \mathbb{R} f:RnR是一个连续可微的有下界的函数,并且梯度Lipschitz常数为 L f L_f Lf s > 0 s>0 s>0
∥ x ∥ 0 = ∣ { i : x i ≠ 0 } ∣ . \|\mathbf{x}\|_{0}=\left|\left\{i: x_{i} \neq 0\right\}\right| . x0={i:xi=0}.


I 1 ( x ) ≡ { i : x i ≠ 0 } I_{1}(\mathbf{x}) \equiv\left\{i: x_{i} \neq 0\right\} I1(x){i:xi=0}
I 0 ( x ) ≡ { i : x i = 0 } I_{0}(\mathbf{x}) \equiv\left\{i: x_{i} = 0\right\} I0(x){i:xi=0}
C s = { x : ∥ x ∥ 0 ≤ s } C_{s}=\left\{\mathbf{x}:\|\mathbf{x}\|_{0} \leq s\right\} Cs={x:x0s}
于是问题(S)可以写成
min ⁡ { f ( x ) : x ∈ C s } \min\left\{f(\mathbf{x}):\mathbf{x}\in C_s\right\} min{f(x):xCs}
接着
M i ( x ) M_i(\mathbf{x}) Mi(x)表示 x \mathbf{x} x分量中绝对值最大的
现在我们来解这个问题

L-稳定

前面正交投影算子要求是一个凸集,但是这个 C s C_s Cs并不是一个凸集,所以,最优解不唯一。
P C s ( x ) = argmin ⁡ y { ∥ y − x ∥ : y ∈ C s } P_{C_{s}}(\mathbf{x})=\operatorname{argmin}_{\mathbf{y}}\left\{\|\mathbf{y}-\mathbf{x}\|: \mathbf{y} \in C_{s}\right\} PCs(x)=argminy{yx:yCs}
因为目标函数依然是强制函数, C s C_s Cs是闭集,所以一定是有解的

L-稳定点

x ∗ ∈ C s \mathbf{x}^*\in C_s xCs如果满足
[ N C L ] x ∗ ∈ P C s ( x ∗ − 1 L ∇ f ( x ∗ ) ) \left[\mathrm{NC}_{L}\right] \quad \mathrm{x}^{*} \in P_{\mathrm{C}_{s}}\left(\mathrm{x}^{*}-\frac{1}{L} \nabla f\left(\mathrm{x}^{*}\right)\right) [NCL]xPCs(xL1f(x))
则称为问题(S)的L-稳定点(L-stationarity point)

引理3

∀ L > 0 , x ∗ ∈ C s \forall L>0,\mathbf{x}^* \in C_s L>0,xCs,满足 [ N C L ] \left[NC_L\right] [NCL]当且仅当
∣ ∂ f ∂ x i ( x ∗ ) ∣ { ≤ L M s ( x ∗ )  if  i ∈ I 0 ( x ∗ ) , = 0  if  i ∈ I 1 ( x ∗ ) . \left|\frac{\partial f}{\partial x_{i}}\left(\mathbf{x}^{*}\right)\right| \begin{cases}\leq L M_{s}\left(\mathbf{x}^{*}\right) & \text { if } i \in I_{0}\left(\mathbf{x}^{*}\right), \\ =0 & \text { if } i \in I_{1}\left(\mathbf{x}^{*}\right) .\end{cases} xif(x){LMs(x)=0 if iI0(x), if iI1(x).

证明:
必要性: x ∗ \mathbf{x}^* x满足 [ N C L ] \left[NC_L\right] [NCL]
注意到 P C s ( x ∗ − 1 L ∇ f ( x ∗ ) ) P_{\mathrm{C}_{s}}\left(\mathrm{x}^{*}-\frac{1}{L} \nabla f\left(\mathrm{x}^{*}\right)\right) PCs(xL1f(x))中的分量要么为0,要么为 x j − 1 L ∂ f ∂ x j ( x ∗ ) \mathbf{x}_j-\frac{1}{L}\frac{\partial f}{\partial x_j}(\mathbf{x}^*) xjL1xjf(x)
因为 x ∗ ∈ P C s ( x ∗ − 1 L ∇ f ( x ∗ ) ) \mathrm{x}^{*} \in P_{\mathrm{C}_{s}}\left(\mathrm{x}^{*}-\frac{1}{L} \nabla f\left(\mathrm{x}^{*}\right)\right) xPCs(xL1f(x))
所以如果 i ∈ I 1 ( x ∗ ) i \in I_{1}\left(\mathbf{x}^{*}\right) iI1(x),则
x i ∗ = x i ∗ − 1 L ∂ f ∂ x i ( x ∗ ) x_{i}^{*}=x_{i}^{*}-\frac{1}{L} \frac{\partial f}{\partial x_{i}}\left(\mathbf{x}^{*}\right) xi=xiL1xif(x)
如果 i ∈ I 0 ( x ∗ ) i \in I_{0}\left(\mathbf{x}^{*}\right) iI0(x),则 ∣ x i ∗ − 1 L ∂ f ∂ x i ( x ∗ ) ∣ ≤ M s ( x ∗ ) \left|x_{i}^{*}-\frac{1}{L} \frac{\partial f}{\partial x_{i}}\left(\mathbf{x}^{*}\right)\right| \leq M_{s}\left(\mathbf{x}^{*}\right) xiL1xif(x)Ms(x)
又因为 x i ∗ = 0 x_i^*=0 xi=0,所以 ∣ ∂ f ∂ x i ( x ∗ ) ∣ ≤ L M s ( x ∗ ) \left| \frac{\partial f}{\partial x_{i}}\left(\mathbf{x}^{*}\right)\right| \leq LM_{s}\left(\mathbf{x}^{*}\right) xif(x)LMs(x)

充分性:
如果 ∥ x ∗ ∥ 0 < s \|\mathbf{x}^*\|_0<s x0<s,则 M s ( x ∗ ) = 0 M_s(\mathbf{x}^*)=0 Ms(x)=0,进而 ∇ f ( x ∗ ) = 0 \nabla f(\mathbf{x}^*)=0 f(x)=0
这种情况 P C s ( x ∗ − 1 L ∇ f ( x ∗ ) ) = P C s ( x ∗ ) = { x ∗ } P_{\mathrm{C}_{s}}\left(\mathrm{x}^{*}-\frac{1}{L} \nabla f\left(\mathrm{x}^{*}\right)\right)=P_{C_s}(\mathbf{x}^*)=\left\{\mathbf{x}^*\right\} PCs(xL1f(x))=PCs(x)={x}

如果 ∥ x ∗ ∥ = s \|\mathbf{x}^*\|=s x=s,则
∣ x i ∗ − 1 L ∂ f ∂ x i ( x ∗ ) ∣ { = ∣ x i ∗ ∣ , i ∈ I 1 ( x ∗ ) , ≤ M s ( x ∗ ) , i ∈ I 0 ( x ∗ ) . \left|x_{i}^{*}-\frac{1}{L} \frac{\partial f}{\partial x_{i}}\left(\mathbf{x}^{*}\right)\right| \begin{cases}=\left|x_{i}^{*}\right|, & i \in I_{1}\left(\mathbf{x}^{*}\right), \\ \leq M_{s}\left(\mathbf{x}^{*}\right), & i \in I_{0}\left(\mathbf{x}^{*}\right) .\end{cases} xiL1xif(x){=xi,Ms(x),iI1(x),iI0(x).

引理4

假设 f ∈ C L f 1 , 1 ( R n ) , L > L f f\in C_{L_f}^{1,1}(\mathbb{R}^n),L>L_f fCLf1,1(Rn),L>Lf,则对于 ∀ x ∈ C s , y ∈ R n \forall \mathbf{x}\in C_s,y\in\mathbb{R}^n xCs,yRn,且满足
y ∈ P C s ( x − 1 L ∇ f ( x ) ) \mathrm{y} \in P_{C_{s}}\left(\mathrm{x}-\frac{1}{L} \nabla f(\mathrm{x})\right) yPCs(xL1f(x))

f ( x ) − f ( y ) ≥ L − L f 2 ∥ x − y ∥ 2 f(\mathbf{x})-f(\mathbf{y}) \geq \frac{L-L_{f}}{2}\|\mathbf{x}-\mathbf{y}\|^{2} f(x)f(y)2LLfxy2

证明:
因为
y ∈ argmin ⁡ z ∈ C s ∥ z − ( x − 1 L ∇ f ( x ) ) ∥ 2 \mathrm{y} \in \operatorname{argmin}_{\mathrm{z} \in \mathrm{C}_{s}}\left\|\mathrm{z}-\left(\mathrm{x}-\frac{1}{L} \nabla f(\mathrm{x})\right)\right\|^{2} yargminzCsz(xL1f(x))2
h L ( z , x ) = f ( x ) + ⟨ ∇ f ( x ) , z − x ⟩ + L 2 ∥ z − x ∥ 2 = L 2 ∥ z − ( x − 1 L ∇ f ( x ) ) ∥ 2 + f ( x ) − 1 2 L ∥ ∇ f ( x ) ∥ 2 ⏟ constant w.r.t.  z , \begin{aligned} h_{L}(\mathbf{z}, \mathbf{x}) &=f(\mathbf{x})+\langle\nabla f(\mathbf{x}), \mathbf{z}-\mathbf{x}\rangle+\frac{L}{2}\|\mathbf{z}-\mathbf{x}\|^{2} \\ &=\frac{L}{2}\left\|\mathbf{z}-\left(\mathbf{x}-\frac{1}{L} \nabla f(\mathbf{x})\right)\right\|^{2}+\underbrace{f(\mathbf{x})-\frac{1}{2 L}\|\nabla f(\mathbf{x})\|^{2}}_{\text {constant w.r.t. } z}, \end{aligned} hL(z,x)=f(x)+f(x),zx+2Lzx2=2Lz(xL1f(x))2+constant w.r.t. z f(x)2L1f(x)2,
所以
y ∈ argmin ⁡ z ∈ C s h L ( z , x ) \mathrm{y} \in \operatorname{argmin}_{\mathrm{z} \in \mathrm{C}_{s}} h_{L}(\mathrm{z}, \mathrm{x}) yargminzCshL(z,x)
所以
h L ( y , x ) ≤ h L ( x , x ) = f ( x ) h_{L}(\mathbf{y}, \mathbf{x}) \leq h_{L}(\mathbf{x}, \mathbf{x})=f(\mathbf{x}) hL(y,x)hL(x,x)=f(x)
根据下降引理
f ( x ) − f ( y ) ≥ f ( x ) − h L f ( y , x ) f(\mathbf{x})-f(\mathbf{y}) \geq f(\mathbf{x})-h_{L_{f}}(\mathbf{y}, \mathbf{x}) f(x)f(y)f(x)hLf(y,x)
根据
h L f ( x , y ) = h L ( x , y ) − L − L f 2 ∥ x − y ∥ 2 h_{L_{f}}(\mathbf{x}, \mathbf{y})=h_{L}(\mathbf{x}, \mathbf{y})-\frac{L-L_{f}}{2}\|\mathbf{x}-\mathbf{y}\|^{2} hLf(x,y)=hL(x,y)2LLfxy2

f ( x ) − f ( y ) ≥ L − L f 2 ∥ x − y ∥ 2 f(\mathbf{x})-f(\mathbf{y}) \geq \frac{L-L_{f}}{2}\|\mathbf{x}-\mathbf{y}\|^{2} f(x)f(y)2LLfxy2

定理8

f ∈ C L f 1 , 1 ( R n ) , L > L f f\in C_{L_f}^{1,1}(\mathbb{R}^n),L>L_f fCLf1,1(Rn),L>Lf
x ∗ \mathbf{x}^* x是问题(S)的最优解,则
(i) x ∗ \mathbf{x}^* x是一个L-稳定点
(ii) P C s ( x ∗ − 1 L ∇ f ( x ∗ ) ) P_{\mathrm{C}_{s}}\left(\mathrm{x}^{*}-\frac{1}{L} \nabla f\left(\mathrm{x}^{*}\right)\right) PCs(xL1f(x))只有一个元素
证明:
假设 y ∈ P C s ( x ∗ − 1 L ∇ f ( x ∗ ) ) \mathbf{y}\in P_{\mathrm{C}_{s}}\left(\mathrm{x}^{*}-\frac{1}{L} \nabla f\left(\mathrm{x}^{*}\right)\right) yPCs(xL1f(x))
x ∗ ≠ y \mathbf{x}^*\neq \mathbf{y} x=y
根据引理3
f ( x ∗ ) − f ( y ) ≥ L − L f 2 ∥ x ∗ − y ∥ 2 f\left(\mathbf{x}^{*}\right)-f(\mathbf{y}) \geq \frac{L-L_{f}}{2}\left\|\mathbf{x}^{*}-\mathbf{y}\right\|^{2} f(x)f(y)2LLfxy2
x ∗ \mathbf{x}^* x是最优解矛盾

IHT方法

输入 L > L f L>L_f L>Lf
选择起点 x 0 ∈ C s \mathbf{x}_0\in C_s x0Cs
迭代 x k + 1 ∈ P C s ( x k − 1 L ∇ f ( x k ) ) , k = 0 , 1 , ⋯ \mathbf{x}^{k+1}\in P_{C_s}(\mathbf{x}^k-\frac{1}{L}\nabla f(\mathbf{x}^k)),\quad k=0,1,\cdots xk+1PCs(xkL1f(xk)),k=0,1,

引理5

f ∈ C L f 1 , 1 ( R n ) f\in C_{L_f}^{1,1}(\mathbb{R}^n) fCLf1,1(Rn),且有下界
{ x k } k ≥ 0 \left\{\mathbf{x}^k\right\}_{k\ge 0} {xk}k0是IHT方法用固定步长 1 L \frac{1}{L} L1产生的序列,则
(a) f ( x k ) − f ( x k + 1 ) ≥ L − L f 2 ∥ x k − x k + 1 ∥ 2 f\left(\mathrm{x}^{k}\right)-f\left(\mathrm{x}^{k+1}\right) \geq \frac{L-L_{f}}{2}\left\|\mathrm{x}^{k}-\mathrm{x}^{k+1}\right\|^{2} f(xk)f(xk+1)2LLfxkxk+12
(b) { f ( x k ) } k ≥ 0 \left\{f\left(\mathbf{x}^{k}\right)\right\}_{k \geq 0} {f(xk)}k0单调不增
( c ) (c) (c) ∥ x k − x k + 1 ∥ → 0 \left\|\mathbf{x}^{k}-\mathbf{x}^{k+1}\right\| \rightarrow 0 xkxk+10
(d)对于 ∀ k = 0 , 1 , 2 , ⋯ \forall k=0,1,2,\cdots k=0,1,2,,如果 x k ≠ x k + 1 \mathbf{x}^k\neq \mathbf{x}^{k+1} xk=xk+1,则 f ( x k + 1 ) < f ( x k ) f\left(\mathbf{x}^{k+1}\right)<f\left(\mathbf{x}^{k}\right) f(xk+1)<f(xk)

证明:
(a)由引理4显然成立
(b)由(a),显然
( c ) (c) (c) { f ( x k ) } k ≥ 0 \left\{f\left(\mathbf{x}^{k}\right)\right\}_{k \geq 0} {f(xk)}k0单调递减有下界,收敛,
所以由(a)成立
(d)显然

定理8

{ x k } k ≥ 0 \left\{\mathbf{x}^k\right\}_{k\ge 0} {xk}k0是IHT方法用固定步长 1 L \frac{1}{L} L1产生的序列
其中 L > L f L>L_f L>Lf
{ x k } k ≥ 0 \left\{\mathbf{x}^k\right\}_{k\ge 0} {xk}k0的任何聚点都是L-稳定点

证明:摸了