投影矩阵 /幂等矩阵
投影矩阵 /幂等矩阵 (idempotent matrix) P \mathbf P P满足 P 2 = P P^2=P P2=P,也即 P ( I − P ) = 0 P(I-P)=0 P(I−P)=0
- 幂等矩阵
P
P
P 的几何意义:将向量
x
\mathbf{x}
x 投影至
P
P
P 的列空间
C
(
P
)
C(P)
C(P)内
而 P 2 = P P^2=P P2=P的意义就是“投影两次等效于投影一次” - 投影也分为两类:斜投影(oblique projection) 和 正交投影(额外满足 P H = P P^H=P PH=P)
下面先介绍一般投影的特点,然后再介绍正交投影
投影矩阵 /幂等矩阵 的性质
关于特征值和行列式:
- 特征值必为
λ
=
0
或
1
\lambda=0 或 1
λ=0或1(证明:
P
2
x
=
P
x
P^2\mathbf{x}=P\mathbf{x}
P2x=Px,则
λ
2
x
=
λ
x
\lambda^2\mathbf{x}=\lambda\mathbf{x}
λ2x=λx,
λ
2
=
λ
\lambda^2=\lambda
λ2=λ)
①其中, λ = 1 \lambda=1 λ=1 的特征子空间为 C ( P ) C(P) C(P), λ = 0 \lambda=0 λ=0 的特征子空间为 N ( P ) N(P) N(P)
② det P = 0 或 1 \det P=0 或 1 detP=0或1 - 推论:投影矩阵 P P P必然可以相似对角化为 d i a g ( 1 , … , 1 , 0 , … , 0 ) \mathrm{diag}(1,\ldots,1,0,\ldots,0) diag(1,…,1,0,…,0)
证明:
因为 λ = 1 \lambda=1 λ=1 的特征子空间为 C ( P ) C(P) C(P), λ = 0 \lambda=0 λ=0 的特征子空间为 N ( P ) N(P) N(P),而 C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P) Cn=C(P)⊕N(P)(后面证明),有充足的无关特征向量,代数重数=几何重数,投影矩阵 P P P**必然可以相似对角化
- r a n k ( P ) = t r a c e ( P ) \mathrm{rank}(P)=\mathrm{trace}(P) rank(P)=trace(P)
证明: t r a c e ( P ) = λ 1 + . . . + λ n = 特征值 1 的个数 \mathrm{trace}(P)=\lambda_1+...+\lambda_n=特征值1的个数 trace(P)=λ1+...+λn=特征值1的个数
另外,投影矩阵的重要意义是,投影隐含了两个投影矩阵、隐含了空间的直和分解
-
(
I
−
P
)
(I-P)
(I−P)也是幂等矩阵,几何意义是将向量正交投影至
C
(
I
−
P
)
C(I-P)
C(I−P)
并且 C ( I − P ) C(I-P) C(I−P)与 C ( P ) C(P) C(P)互为直和补: C n = C ( P ) ⊕ C ( I − P ) \mathbb C^n=C(P)\oplus C(I-P) Cn=C(P)⊕C(I−P)
如图,任意向量可拆分为投影部分 C ( P ) C(P) C(P)和投影的“轨迹”部分 C ( I − P ) C(I-P) C(I−P): x = P x + ( I − P ) x \mathbf{x}=P\mathbf{x}+(I-P)\mathbf{x} x=Px+(I−P)x
-
N
(
P
)
=
C
(
I
−
P
)
N(P)=C(I-P)
N(P)=C(I−P), 同理有
N
(
I
−
P
)
=
C
(
P
)
N(I-P)=C(P)
N(I−P)=C(P)
推论: P ( I − P ) = 0 P(I-P)=0 P(I−P)=0、 ( I − P ) P = 0 (I-P)P=0 (I−P)P=0
证明:
①若 x ∈ N ( P ) \mathbf{x}\in N(P) x∈N(P), P x = 0 P\mathbf{x}=\mathbf{0} Px=0,故 ( I − P ) x = x − P x = x (I-P)\mathbf{x}=\mathbf{x}-P\mathbf{x}=\mathbf{x} (I−P)x=x−Px=x,亦即 x ∈ C ( I − P ) \mathbf{x}\in C(I-P) x∈C(I−P)
②若 x ∈ C ( I − P ) \mathbf{x}\in C(I-P) x∈C(I−P), x = ( I − P ) y \mathbf{x}=(I-P)\mathbf{y} x=(I−P)y,故 P x = P ( I − P ) y = 0 y = 0 P\mathbf{x}=P(I-P)\mathbf{y}=0\mathbf{y}=\mathbf{0} Px=P(I−P)y=0y=0,即 x ∈ N ( P ) \mathbf{x}\in N(P) x∈N(P)
- 推论:每个投影矩阵,唯一对应空间的一个直和分解: C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P) Cn=C(P)⊕N(P)
证明: C n = C ( P ) ⊕ C ( I − P ) \mathbb C^n=C(P)\oplus C(I-P) Cn=C(P)⊕C(I−P),带入 C ( I − P ) = N ( P ) C(I-P)=N(P) C(I−P)=N(P)即可
正交投影矩阵
在此幂等矩阵 P 2 = P P^2=P P2=P的基础上, P P P为正交投影矩阵的充要条件是:
- P 2 = P = P H P^2=P=P^H P2=P=PH
为何正交投影要求 P H = P P^H=P PH=P?
理解:“垂直投影”即 P H ( I − P ) x = 0 P^H(I-P)\mathbf{x}=0 PH(I−P)x=0,
这要求 P H = P H P P^H=P^HP PH=PHP,又因为 ( P H P ) H = P H P (P^HP)^H=P^HP (PHP)H=PHP,则 P H = P P^H=P PH=P
- P = P H P P=P^H P P=PHP
这是 P 2 = P = P H P^2=P=P^H P2=P=PH的等价描述
证明:
若 P 2 = P = P H P^2=P=P^H P2=P=PH,则 P H P = P P = P P^H P=PP=P PHP=PP=P;
若 P = P H P P=P^H P P=PHP,则 P H = P H P = P P^H=P^H P=P PH=PHP=P,且 P = P H P = P P P=P^H P=PP P=PHP=PP。
- 正交投影矩阵 P P P的几何意义:“垂直”的投影,i.e. 投影“轨迹” x − P x = ( I − P ) x \mathbf{x}-P\mathbf{x}=(I-P)\mathbf{x} x−Px=(I−P)x必然垂直于 C ( P ) C(P) C(P)
正交投影矩阵的性质与一般的投影矩阵相同,主要有以下不同:
-
正交投影矩阵必为 Hermite矩阵、必为 正规矩阵(
P
H
=
P
P^H=P
PH=P,
P
H
P
=
P
P
H
P^HP=PP^H
PHP=PPH)
因此,正交投影矩阵必必有一套正交的特征向量(可酉对角化)、必有实特征值(0和1)、满足 A x = λ x ⇒ A H x = λ ˉ x A\mathbf x=\lambda\mathbf x\Rightarrow A^H\mathbf x=\bar\lambda\mathbf x Ax=λx⇒AHx=λˉx、奇异值 σ 1 , . . . , σ n = ∣ λ 1 ∣ , … , ∣ λ n ∣ \sigma_1,...,\sigma_n=\vert\lambda_1\vert,\ldots,\vert\lambda_n\vert σ1,...,σn=∣λ1∣,…,∣λn∣(特征值的绝对值) - 正交投影矩阵至少为半正定矩阵
原因:正交投影矩阵满足 P H = P P^H=P PH=P,且特征值为0和1(特征值 ≥ 0 \ge 0 ≥0),故为半正定矩阵 - [将空间分解为 C n = X ⊕ X ⊥ \mathbb{C}^n=\mathcal{X}\oplus\mathcal{X}^{\perp} Cn=X⊕X⊥] 唯一对应一个 [正交投影矩阵],反之亦然
向 C ( P ) C(P) C(P)做投影,斜投影矩阵有无数个,正交投影矩阵则只有一个( X \mathcal{X} X唯一确定其正交补 X ⊥ \mathcal{X}^{\perp} X⊥)
①对于斜投影矩阵 P P P,空间被分为 C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P) Cn=C(P)⊕N(P),我们说矩阵 P P P 将向量 v \mathbf{v} v 沿着 N ( P ) N(P) N(P) 投影至 C ( P ) C(P) C(P)( N ( P ) N(P) N(P)与 C ( P ) C(P) C(P)不一定正交)
②对于正交投影矩阵 P P P,空间被分为 C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P) Cn=C(P)⊕N(P)(其中 N ( P ) = C ( P ) ⊥ N(P)=C(P)^{\perp} N(P)=C(P)⊥ ),我们可以直接说矩阵 P P P 将向量 v \mathbf{v} v (沿着 N ( P ) = C ( P ) ⊥ N(P)=C(P)^{\perp} N(P)=C(P)⊥ )投影至 C ( P ) C(P) C(P)
- 正交投影中实际上隐含了两个正交投影矩阵,也将空间分解为两个正交补
① P P P将向量正交投影至 C ( P ) C(P) C(P); ( I − P ) (I-P) (I−P)将向量正交投影至 C ( I − P ) C(I-P) C(I−P);
② C n = C ( P ) ⊕ C ( I − P ) \mathbb C^n=C(P)\oplus C(I-P) Cn=C(P)⊕C(I−P),且 C ( P ) ⊥ = C ( I − P ) C(P)^{\perp}=C(I-P) C(P)⊥=C(I−P)(正交补)
③ C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P) Cn=C(P)⊕N(P),且 C ( P ) ⊥ = N ( P ) C(P)^{\perp}=N(P) C(P)⊥=N(P)(因为 N ( P ) = C ( I − P ) N(P)=C(I-P) N(P)=C(I−P) )
如图,任意向量可拆分为 x = P x + ( I − P ) x \mathbf{x}=P\mathbf{x}+(I-P)\mathbf{x} x=Px+(I−P)x, 且 P x ⊥ ( I − P ) x P\mathbf{x}\perp (I-P)\mathbf{x} Px⊥(I−P)x
- 对于任意的
x
\mathbf{x}
x,正交投影矩阵保证
∥
P
x
∥
≤
∥
x
∥
\Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert
∥Px∥≤∥x∥
这就是说,正交投影 P x P\mathbf{x} Px 的长度必不大于原向量 x \mathbf{x} x 的长度 - 反过来,任何不会增长向量长度的投影必为正交投影
i.e. 对于投影矩阵 P = P 2 P=P^2 P=P2,若对任意 x \mathbf{x} x有 ∥ P x ∥ ≤ ∥ x ∥ \Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert ∥Px∥≤∥x∥,则 P H = P P^H=P PH=P - 两正交投影矩阵
P
P
P 和
Q
Q
Q 正交(
P
H
Q
=
P
Q
=
0
P^HQ=PQ=0
PHQ=PQ=0),则
①它们所投影到的空间也正交( C ( P ) C(P) C(P)与 C ( Q ) C(Q) C(Q)正交)
②进而有 Q = I − P Q=I-P Q=I−P
证明:
若 P H Q = 0 P^HQ=0 PHQ=0 且 x ∈ C ( P ) \mathbf{x}\in C(P) x∈C(P), y ∈ C ( Q ) \mathbf{y}\in C(Q) y∈C(Q),则 x H y = ( P x ) H ( Q y ) = x H P H Q y = 0 \mathbf{x}^{H}\mathbf{y}=(P\mathbf{x})^{H}(Q\mathbf{y})=\mathbf{x}^{H}P^{H}Q\mathbf{y}=0 xHy=(Px)H(Qy)=xHPHQy=0
若 C ( P ) ⊥ C ( Q ) C(P)\perp C(Q) C(P)⊥C(Q),则对于 Q x ∈ C ( Q ) ⊆ C ( P ) ⊥ Q\mathbf{x}\in C(Q)\subseteq C(P)^{\perp} Qx∈C(Q)⊆C(P)⊥,有 P H ( Q x ) = 0 P^H(Q\mathbf{x})=\mathbf{0} PH(Qx)=0,即 P H Q = 0 P^HQ=0 PHQ=0
如何求向 C ( A ) C(A) C(A)做正交投影的正交投影矩阵
给出列满秩矩阵
A
A
A(列向量线性无关),我们希望向列空间
C
(
A
)
C(A)
C(A)做正交投影
对应的正交投影矩阵就是
P
=
A
(
A
T
A
)
−
1
A
T
P=A(A^TA)^{-1}A^T
P=A(ATA)−1AT,可以验证
P
2
=
P
=
P
T
P^2=P=P^T
P2=P=PT、
C
(
P
)
=
C
(
A
)
C(P)=C(A)
C(P)=C(A)
说明:
①再次强调前提: rank A = n \hbox{rank}A=n rankA=n,此时才有 A T A A^TA ATA可逆
②注意,其中 ( A T A ) − 1 A T (A^TA)^{-1}A^T (ATA)−1AT就是 A A A的左逆 A l e f t − 1 A_{left}^{-1} Aleft−1
③ P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)−1AT中左侧先出现因子 A A A,这保证了 C ( P ) = C ( A ) C(P)=C(A) C(P)=C(A)
推导过程:线代胶囊──正交投影矩阵
- 假如
A
A
A的列向量是正交化的,公式得到简化:
将QR分解 A = Q R A=QR A=QR带入 P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)−1AT,化简得到 P = Q Q T P=QQ^T P=QQT
另外,如果 P = Q Q T = [ q 1 T ⋮ q k T ] [ q 1 ⋯ q k ] = q 1 q 1 T + ⋯ + q k q k T P=QQ^{T}=\begin{bmatrix} \mathbf{q}_1^T\\ \vdots\\ \mathbf{q}_k^T \end{bmatrix}\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_k \end{bmatrix}=\mathbf{q}_1\mathbf{q}_1^T+\cdots+\mathbf{q}_k\mathbf{q}_k^{T} P=QQT= q1T⋮qkT [q1⋯qk]=q1q1T+⋯+qkqkT
那么向量 x \mathbf x x的投影容易计算: P x = ( q 1 q 1 T + ⋯ + q k q k T ) x = ( q 1 T x ) q 1 + ⋯ + ( q k T x ) q k P\mathbf{x}=(\mathbf{q}_1\mathbf{q}_1^T+\cdots+\mathbf{q}_k\mathbf{q}_k^{T})\mathbf{x}=(\mathbf{q}_1^T\mathbf{x})\mathbf{q}_1+\cdots+(\mathbf{q}_k^T\mathbf{x})\mathbf{q}_k Px=(q1q1T+⋯+qkqkT)x=(q1Tx)q1+⋯+(qkTx)qk文章来源:https://www.toymoban.com/news/detail-736352.html
- 注意,这里的正交投影矩阵
P
P
P 是唯一的:
即使 A A A的列向量改变,只要 C ( A ) C(A) C(A)仍不变、 A A A仍列满秩,则 A A A仍不变 - 当 A A A为一个向量 a \mathbf{a} a,正交投影矩阵退化为 P = a ( a T a ) − 1 a T = a a T a T a \displaystyle P=\mathbf{a}(\mathbf{a}^T\mathbf{a})^{-1}\mathbf{a}^T=\frac{\mathbf{a}\mathbf{a}^T}{\mathbf{a}^T\mathbf{a}} P=a(aTa)−1aT=aTaaaT
reference:
直和与投影(前置知识)
特殊矩阵 (5):幂等矩阵
线代胶囊──正交投影矩阵
正交投影矩阵的性质与界定
从线性变换解释最小平方近似(正交投影的应用:最小二乘法)文章来源地址https://www.toymoban.com/news/detail-736352.html
到了这里,关于矩阵理论| 特殊矩阵:幂等矩阵、投影、正交投影的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!