5.7 约束优化最优性理论应用实例
5.7.1 仿射空间的投影问题
考虑优化问题
min
x
∈
R
n
1
2
∣
∣
x
−
y
∣
∣
2
2
,
s
.
t
.
A
x
=
b
\min_{x{\in}R^n}\frac{1}{2}||x-y||_2^2,\\ s.t.{\quad}Ax=b
x∈Rnmin21∣∣x−y∣∣22,s.t.Ax=b
其中
A
∈
R
m
×
n
,
b
∈
R
m
,
y
∈
R
n
A{\in}R^{m \times n},b{\in}R^m,y{\in}R^n
A∈Rm×n,b∈Rm,y∈Rn为给定的矩阵和向量,这里不妨设矩阵A是行满秩的,这个问题可以看成仿射平面
{
x
∈
R
n
∣
A
x
=
b
}
\{x{\in}R^n|Ax=b\}
{x∈Rn∣Ax=b}的投影问题
对于等式约束,我们引入拉格朗日乘子
λ
∈
R
m
\lambda{\in}R^m
λ∈Rm,构造拉格朗日函数
L
(
x
,
λ
)
=
1
2
∣
∣
x
−
y
∣
∣
2
+
λ
T
(
A
x
−
b
)
L(x,\lambda)=\frac{1}{2}||x-y||^2+\lambda^T(Ax-b)
L(x,λ)=21∣∣x−y∣∣2+λT(Ax−b)
因为只有仿射约束,估
S
l
a
t
e
r
Slater
Slater条件满足,
x
∗
x^*
x∗为一个全局最优解,当且仅当存在
λ
∗
∈
R
m
\lambda^*{\in}R^m
λ∗∈Rm使得
{
x
∗
−
y
+
A
T
λ
=
0
A
x
∗
=
b
\left\{ \begin{matrix} x^*-y+A^T\lambda=0\\ Ax^*=b \\ \end{matrix} \right.
{x∗−y+ATλ=0Ax∗=b
由上述KKT条件第一式,等号左右两边同时左乘
A
A
A可得
A
x
∗
−
A
y
+
A
A
T
λ
=
0
Ax^*-Ay+AA^T\lambda=0
Ax∗−Ay+AATλ=0
注意到
A
x
∗
=
b
Ax^*=b
Ax∗=b以及
A
A
T
AA^T
AAT是可逆矩阵,因此可以解出乘子
λ
=
(
A
A
T
)
−
1
(
A
y
−
b
)
\lambda=(AA^T)^{-1}(Ay-b)
λ=(AAT)−1(Ay−b)
代入回去可以得到
x
∗
=
y
−
A
T
(
A
A
T
)
−
1
(
A
y
−
b
)
x^*=y-A^T(AA^T)^{-1}(Ay-b)
x∗=y−AT(AAT)−1(Ay−b)
5.7.2 线性规划问题
考虑线性规划问题
min
x
∈
R
n
c
T
x
,
s
.
t
.
A
x
=
b
,
x
≥
0
(5.7.1)
\min_{x{\in}R^n}{\quad}c^Tx,\\ s.t.{\quad}Ax=b,\\ x{\ge}0\tag{5.7.1}
x∈RnmincTx,s.t.Ax=b,x≥0(5.7.1)
其中
A
∈
R
m
×
n
,
b
∈
R
m
,
c
∈
R
n
A{\in}R^{m \times n},b{\in}R^m,c{\in}R^n
A∈Rm×n,b∈Rm,c∈Rn分别为给定的矩阵和向量
拉格朗日函数可以写为
L
(
x
,
s
,
v
)
=
c
T
x
+
v
T
(
A
x
−
b
)
−
s
T
x
=
−
b
T
v
+
(
A
T
v
−
s
+
c
)
T
x
,
s
≥
0
L(x,s,v)=c^Tx+v^T(Ax-b)-s^Tx\\ =-b^Tv+(A^Tv-s+c)^Tx,s{\ge}0
L(x,s,v)=cTx+vT(Ax−b)−sTx=−bTv+(ATv−s+c)Tx,s≥0
其中
s
∈
R
n
,
v
∈
R
m
s{\in}R^n,v{\in}R^m
s∈Rn,v∈Rm,由于线性规划是凸问题且满足
S
l
a
t
e
r
Slater
Slater条件的,因此对于任意一个全局最优解
x
∗
x^*
x∗,我们有如下KKT条件
{
c
+
A
T
v
∗
−
s
∗
=
0
,
A
x
∗
=
b
x
∗
≥
0
s
∗
≥
0
s
∗
x
∗
=
0
(5.7.2)
\left\{ \begin{matrix} c+A^Tv^*-s^*=0,\\ Ax^*=b \\ x^*{\ge}0\\ s^*{\ge}0\\ s^*x^*=0 \end{matrix} \right.\tag{5.7.2}
⎩
⎨
⎧c+ATv∗−s∗=0,Ax∗=bx∗≥0s∗≥0s∗x∗=0(5.7.2)
我们设原始问题和对偶问题最优解函数值分别为
p
∗
p^*
p∗和
d
∗
d^*
d∗,则根据
p
∗
p^*
p∗取值情况,有如下三种可能
(1)如果
−
∞
<
p
∗
<
+
∞
(
有界
)
-\infty<p^*<+\infty(有界)
−∞<p∗<+∞(有界),那么原始问题可行而且存在最优解,由
S
l
a
t
e
r
Slater
Slater条件知强对偶原理成立,因此有
d
∗
=
p
∗
d^*=p^*
d∗=p∗,即对偶问题也是可行的且存在最优解
(2)如果
p
∗
=
−
∞
p^*=-\infty
p∗=−∞,那么原始问题可行,但目标函数值无下界,由弱对偶原理知
d
∗
≤
p
∗
=
−
∞
d^*{\le}p^*=-\infty
d∗≤p∗=−∞,即
d
∗
=
−
∞
d^*=-\infty
d∗=−∞,因为对偶问题是对目标函数极大化,所以此时对偶问题不可行
(3)如果
p
∗
=
+
∞
p^*=+\infty
p∗=+∞,那么原始问题无可行解,注意到
S
l
a
t
e
r
Slater
Slater条件对原始问题不成立,此时对偶问题既可能是函数值无界(
d
∗
=
+
∞
d^*=+\infty
d∗=+∞)也可能无可行解(
d
∗
=
−
∞
d^*=-\infty
d∗=−∞),我们说,不可能出现
−
∞
<
d
∗
<
+
∞
-\infty<d^*<+\infty
−∞<d∗<+∞的情形,这是因为如果对偶问题可行且存在最优解,那么可对对偶问题应用强对偶原理,进而导出原始问题也存在最优解,这矛盾了
5.7.3 基追踪
min
x
∈
R
n
∣
∣
x
∣
∣
1
,
s
.
t
.
A
x
=
b
(5.7.3)
\min_{x{\in}R^n}||x||_1,\\ s.t.{\quad}Ax=b\tag{5.7.3}
x∈Rnmin∣∣x∣∣1,s.t.Ax=b(5.7.3)
利用分解
x
i
=
x
i
+
−
x
i
−
x_i=x_i^+-x_i^-
xi=xi+−xi−,其中
x
i
+
=
m
a
x
{
x
i
,
0
}
,
x
i
−
=
max
{
−
x
i
,
0
}
x_i^+=max\{x_i,0\},x_i^-=\max\{-x_i,0\}
xi+=max{xi,0},xi−=max{−xi,0}分别表示
x
x
x的正部和负部,问题5.7.3的一种等价形式可以写成
min
∑
i
x
i
+
+
x
i
−
,
s
.
t
.
A
x
+
−
A
x
−
=
b
,
x
+
,
x
−
≥
0
\min{\sum_i}x_i^++x_i^-,\\ s.t.{\quad}Ax^+-Ax^-=b,\\ x^+,x^-{\ge}0
mini∑xi++xi−,s.t.Ax+−Ax−=b,x+,x−≥0
进一步的,令
y
=
[
x
i
+
,
x
i
−
]
T
∈
R
2
n
y=[x_i^+,x_i^-]^T{\in}R^{2n}
y=[xi+,xi−]T∈R2n,我们将问题5.7.3转化为如下线性规划问题
min
y
∈
R
2
n
1
T
y
,
s
.
t
.
[
A
,
−
A
]
y
=
b
,
y
≥
0
\min_{y{\in}R^{2n}}1^Ty,\\ s.t.{\quad}[A,-A]y=b,\\ y{\ge}0
y∈R2nmin1Ty,s.t.[A,−A]y=b,y≥0
其中
1
=
(
1
,
1
,
⋯
,
1
)
T
∈
R
2
n
1=(1,1,\cdots,1)^T{\in}R^{2n}
1=(1,1,⋯,1)T∈R2n
那么根据一般线性规划的最优性条件,等价于求解
{
1
+
[
A
,
−
A
]
T
v
∗
−
s
∗
=
0
,
[
A
,
−
A
]
y
∗
=
b
y
∗
≥
0
s
∗
≥
0
s
∗
y
∗
=
0
(5.7.4)
\left\{ \begin{matrix} 1+[A,-A]^Tv^*-s^*=0,\\ [A,-A]y^*=b \\ y^*{\ge}0\\ s^*{\ge}0\\ s^*y^*=0 \end{matrix} \right.\tag{5.7.4}
⎩
⎨
⎧1+[A,−A]Tv∗−s∗=0,[A,−A]y∗=by∗≥0s∗≥0s∗y∗=0(5.7.4)
同样的,我们也可以直接推导5.7.3的最优性条件,拉格朗日函数为
L
(
x
,
v
)
=
∣
∣
x
∣
∣
1
+
v
T
(
A
x
−
b
)
L(x,v)=||x||_1+v^T(Ax-b)
L(x,v)=∣∣x∣∣1+vT(Ax−b)
x
∗
x^*
x∗为全局最优解当且仅当存在
v
∗
∈
R
m
v^*{\in}R^m
v∗∈Rm使得
{
0
∈
∂
∣
∣
x
∗
∣
∣
1
+
A
T
v
∗
,
A
x
∗
=
b
(5.7.5)
\left\{ \begin{matrix} 0{\in}\partial||x^*||_1+A^Tv^*,\\ Ax^*=b \\ \end{matrix} \right.\tag{5.7.5}
{0∈∂∣∣x∗∣∣1+ATv∗,Ax∗=b(5.7.5)
最优性条件5.7.4和5.7.5本质上是等价的文章来源:https://www.toymoban.com/news/detail-722677.html
5.7.4 最大割问题的半定规划松弛以及非凸分解模型
第三章说明了最大割问题的半定规划松弛问题。如下
max
<
C
,
X
>
,
s
.
t
.
X
i
i
=
1
,
i
=
1
,
2
,
⋯
,
n
,
X
⪰
0
(5.7.6)
\max{\quad}<C,X>,\\ s.t.{\quad}X_{ii}=1,i=1,2,\cdots,n,\\ X{\succeq}0\tag{5.7.6}
max<C,X>,s.t.Xii=1,i=1,2,⋯,n,X⪰0(5.7.6)
该问题是一个凸优化问题,并且Slater约束品性成立,对于等式约束,我们引入拉格朗日乘子
μ
i
R
,
i
=
1
,
2
,
⋯
,
n
\mu_{i}R,i=1,2,\cdots,n
μiR,i=1,2,⋯,n;对于半正定约束,根据对偶锥,我们引入拉格朗日乘子
Λ
∈
S
+
n
\Lambda{\in}\mathcal{S}_+^n
Λ∈S+n,拉格朗日函数为
L
(
X
,
μ
,
Λ
)
=
<
C
,
X
>
+
∑
i
=
1
n
μ
i
(
X
i
i
−
1
)
−
T
r
(
X
Λ
)
L(X,\mu,\Lambda)=<C,X>+\sum_{i=1}^n\mu_i(X_{ii}-1)-Tr(X\Lambda)
L(X,μ,Λ)=<C,X>+i=1∑nμi(Xii−1)−Tr(XΛ)
根据约束优化问题的最优性条件
{
C
+
D
i
a
g
(
u
∗
)
−
Λ
∗
=
0
,
X
i
i
∗
=
1
X
∗
≥
0
Λ
∗
≥
0
T
r
(
X
∗
Λ
∗
)
=
0
\left\{ \begin{matrix} C+Diag(u^*)-\Lambda^*=0,\\ X_{ii}^*=1 \\ X^*{\ge}0\\ \Lambda^*{\ge}0\\ Tr(X^*\Lambda^*)=0 \end{matrix} \right.
⎩
⎨
⎧C+Diag(u∗)−Λ∗=0,Xii∗=1X∗≥0Λ∗≥0Tr(X∗Λ∗)=0
这个转化成迹就是因为
X
和
Λ
X和\Lambda
X和Λ的半正定性,上述条件
T
r
(
X
∗
Λ
∗
)
=
0
Tr(X^*\Lambda^*)=0
Tr(X∗Λ∗)=0可以等价地用
X
∗
Λ
∗
X^*\Lambda^*
X∗Λ∗代替
下面的非凸分解模型还没看明白。。。以后有机会回来补文章来源地址https://www.toymoban.com/news/detail-722677.html
到了这里,关于最优化:建模、算法与理论(最优性理论2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!