矩阵范数
类似向量范数,矩阵范数需要满足以下条件:
∥
A
∥
≥
0
\Vert A\Vert\ge 0
∥A∥≥0,
∥
A
∥
=
0
\Vert A\Vert=0
∥A∥=0当且仅当
A
=
0
A=0
A=0
∥
c
A
∥
=
∣
c
∣
⋅
∥
A
∥
\Vert cA\Vert=\vert c\vert\cdot\Vert A\Vert
∥cA∥=∣c∣⋅∥A∥
∥
A
+
B
∥
≤
∥
A
∥
+
∥
B
∥
\Vert A+B\Vert\le\Vert A\Vert+\Vert B\Vert
∥A+B∥≤∥A∥+∥B∥
范数等价的概念:
- 范数 ∥ ⋅ ∥ a \|\cdot\|_a ∥⋅∥a和范数 ∥ ⋅ ∥ b \|\cdot\|_b ∥⋅∥b等价 ⟺ \iff ⟺存在 0 < m < M 0<m<M 0<m<M使 m ∥ A ∥ a < ∥ A ∥ b < M ∥ A ∥ a m\|A\|_a<\|A\|_b<M\|A\|_a m∥A∥a<∥A∥b<M∥A∥a
- 和向量范数一样,空间中任意两个矩阵范数均等价
另外,我们一般讨论的都是相容(自相容)的矩阵范数:
- 自相容的范数,满足 ∥ A B ∥ ≤ ∥ A ∥ ⋅ ∥ B ∥ \Vert AB\Vert\le\Vert A\Vert\cdot\Vert B\Vert ∥AB∥≤∥A∥⋅∥B∥
- 矩阵的 m 1 m_1 m1、 m 2 m_2 m2范数是自相容的, m ∞ m_{\infty} m∞范数不相容
例如, A B = [ 1 1 1 1 ] [ 1 1 1 1 ] = [ 2 2 2 2 ] AB=\begin{bmatrix}1 & 1\\ 1 &1\end{bmatrix}\begin{bmatrix}1 & 1\\ 1 &1\end{bmatrix}=\begin{bmatrix}2 & 2\\ 2 &2\end{bmatrix} AB=[1111][1111]=[2222],但 ∥ A B ∥ m ∞ = 2 > 1 = ∥ A ∥ m ∞ ⋅ ∥ B ∥ m ∞ \| AB\|_{m_\infty} =2>1=\Vert A\Vert_{m_\infty}\cdot\Vert B\Vert_{m_\infty} ∥AB∥m∞=2>1=∥A∥m∞⋅∥B∥m∞
m范数
从向量Lp范数推广,(将矩阵视为向量),可以直接得到矩阵范数 / m范数:
- m 1 m_1 m1范数: ∥ A ∥ m 1 = ∑ i ∑ j ∣ a i j ∣ {\left\| \bold A \right\|_{m_1}} = \sum_{i}\sum_{j}|a_{ij}| ∥A∥m1=∑i∑j∣aij∣
-
m
2
m_2
m2范数/ Frobenius范数,:
∥
A
∥
m
2
=
∑
i
∑
j
∣
a
i
j
∣
2
{\left\| \bold A \right\|_{m_2}} = \sqrt{\sum_{i}\sum_{j}|a_{ij}|^2}
∥A∥m2=∑i∑j∣aij∣2
等价计算式1: ∥ A ∥ F = t r a c e ( A H A ) \Vert \boldsymbol A\Vert_{F}=\sqrt{\mathrm{trace}(A^{H}A)} ∥A∥F=trace(AHA)
等价计算式2: ∥ A ∥ F = σ 1 2 + ⋯ + σ r 2 = ∑ i = 1 r σ i 2 {\left\| \boldsymbol A \right\|_F} = \sqrt {\sigma _1^2 + \cdots + \sigma _r^2}=\sqrt{\sum_{i=1}^r\sigma_i^2} ∥A∥F=σ12+⋯+σr2=∑i=1rσi2
关于 ∥ A ∥ F = ∑ i = 1 r σ i 2 {\left\| \boldsymbol A \right\|_F} =\sqrt{\sum_{i=1}^r\sigma_i^2} ∥A∥F=∑i=1rσi2的理解:
- 理解①: A = U Σ V T \boldsymbol A = \boldsymbol {U\Sigma} {\boldsymbol V^T} A=UΣVT,而酉矩阵不改变Frobenius范数,故 ∥ A ∥ F = ∥ Σ ∥ F {\left\| \bold A \right\|_{F}}={\left\| \bold \Sigma \right\|_{F}} ∥A∥F=∥Σ∥F,而 Σ \bold \Sigma Σ的m2范数正是 σ 1 2 + ⋯ + σ r 2 \sqrt {\sigma _1^2 + \cdots + \sigma _r^2} σ12+⋯+σr2
- 理解②:由 ∥ A ∥ F = t r a c e ( A H A ) \Vert A\Vert_{F}=\sqrt{\mathrm{trace}(A^{H}A)} ∥A∥F=trace(AHA)可推出,因为 t r a c e ( A H A ) = λ 1 + . . . + λ n = σ 1 2 + ⋯ + σ r 2 \mathrm{trace}(A^{H}A)=\lambda_1+...+\lambda_n=\sigma _1^2 + \cdots + \sigma _r^2 trace(AHA)=λ1+...+λn=σ12+⋯+σr2(其中 λ \lambda λ为 A H A A^{H}A AHA的特征值, σ 1 ≥ ⋯ ≥ σ r > 0 = σ r + 1 = ⋯ = σ m i n { m , n } \sigma_1\ge\cdots\ge \sigma_r>0=\sigma_{r+1}=\cdots=\sigma_{min\{m,n\}} σ1≥⋯≥σr>0=σr+1=⋯=σmin{m,n}为 A A A的奇异值)
- m ∞ m_\infty m∞范数: ∥ A ∥ m ∞ = max { ∣ a i j ∣ } {\left\| \bold A \right\|_{m_\infty} } = \max \{\left| {a_{ij}} \right|\} ∥A∥m∞=max{∣aij∣}
实际上矩阵范数却不存在公认唯一的度量方式。
上述的矩阵范数,仅是将矩阵视为广义的向量,却忽略了矩阵的“线性变换”意义(矩阵具有移动向量空间的能力)
算子范数
从向量范数出发,也可以矩阵的算子范数(operator norm),准确的说应该是 [从属于向量范数 ∥ ⋅ ∥ a \|\cdot\|_a ∥⋅∥a的算子范数]: ∥ A ∥ a = max ∥ A x ∥ a ∥ x ∥ a = max ∥ x ∥ a = 1 ∥ A x ∥ a {\left\|\boldsymbol A \right\|_a} = \max \frac{{\left\| {\boldsymbol A\bold x} \right\|_a}}{{\left\| \bold x \right\|_a}}= \max_{{{\left\| \bold x \right\|_a}}=1} {\left\| {\boldsymbol A\bold x} \right\|_a} ∥A∥a=max∥x∥a∥Ax∥a=∥x∥a=1max∥Ax∥a
理解:根据定义,算子范数就是将矩阵 A \boldsymbol A A视为一个线性变换,它作用于向量后使得向量伸缩变形,只要在所有向量中找出最大的“伸缩量”(大小的度量准则是某种向量范数),就得到了算子范数
另一方面,可以从“相容”的角度来理解算子范数:
一开始说过,自相容的矩阵范数满足
∥
A
B
∥
≤
∥
A
∥
⋅
∥
B
∥
\Vert AB\Vert\le\Vert A\Vert\cdot\Vert B\Vert
∥AB∥≤∥A∥⋅∥B∥,
也可以推广,定义 [与向量范数
∥
⋅
∥
a
\|\cdot\|_a
∥⋅∥a相容的矩阵范数],它满足
∥
A
x
∥
a
≤
∥
A
∥
⋅
∥
x
∥
a
\Vert A\mathbf{x}\Vert_a\le\Vert A\Vert\cdot\Vert\mathbf{x}\Vert_a
∥Ax∥a≤∥A∥⋅∥x∥a
当
x
≠
0
\mathbf{x}\neq\mathbf{0}
x=0,则有
∥
A
∥
≥
∥
A
x
∥
∥
x
∥
\displaystyle\Vert A\Vert\ge\frac{\Vert A\mathbf{x}\Vert}{\Vert\mathbf{x}\Vert}
∥A∥≥∥x∥∥Ax∥
据此,我们定义 [从属于向量范数 ∥ ⋅ ∥ a \|\cdot\|_a ∥⋅∥a的算子范数]: ∥ A ∥ a = max x ≠ 0 ∥ A x ∥ a ∥ x ∥ a \displaystyle\Vert A\Vert_a=\max_{\mathbf{x}\neq\mathbf{0}}\frac{\Vert A\mathbf{x}\Vert_a}{\Vert\mathbf{x}\Vert_a} ∥A∥a=x=0max∥x∥a∥Ax∥a
- 实际上,给定一个向量范数 ∥ ⋅ ∥ a \|\cdot\|_a ∥⋅∥a,必然存在与该向量范数向量范数 ∥ ⋅ ∥ a \|\cdot\|_a ∥⋅∥a相容的矩阵范数;
- 并且,在所有与 ∥ ⋅ ∥ a \|\cdot\|_a ∥⋅∥a相容的矩阵范数中,算子范数是其中最小的一个(从上式可以直接看出)
- 另外,算子范数必然是自相容的矩阵范数(满足 ∥ A B ∥ a ≤ ∥ A ∥ a ∥ B ∥ a \|AB\|_a\le\|A\|_{a}\|B\|_a ∥AB∥a≤∥A∥a∥B∥a)
上面相当于用向量范数定义了矩阵范数
反过来同样的,可以从“相容”的角度出发,用矩阵范数定义向量范数:
给定一个自相容的矩阵范数 ∥ ⋅ ∥ m \|\cdot\|_{m} ∥⋅∥m,一定存在与之相容的向量范数 ∥ ⋅ ∥ \|\cdot\| ∥⋅∥(使得 ∥ A x ∥ ≤ ∥ A ∥ m ∥ x ∥ \|Ax\|\le\|A\|_{m}\|x\| ∥Ax∥≤∥A∥m∥x∥)
最常用的算子范数
- 谱范数 /算子2范数(从属于向量范数
∥
x
∥
2
{\left\| \bold x \right\|_2}
∥x∥2的算子范数):
∥
A
∥
2
=
r
(
A
H
A
)
=
σ
1
{\left\| \bold A \right\|_2} =\sqrt{r(\bold A^H\bold A)}=\sigma_1
∥A∥2=r(AHA)=σ1
其中, r ( A ) r(\bold A) r(A)为矩阵 A \bold A A的谱半径,而 σ 1 \sigma_1 σ1为矩阵 A \bold A A最大的奇异值
理解:向量 ℓ 2 \ell ^2 ℓ2范数就是向量的几何长度,求算子范数就是找向量的最大伸缩量
从这个意义理解,显然单位阵 I I I的算子2范数为1;
正交矩阵/酉矩阵的 算子2范数为1;
对角矩阵的 算子2范数为 最大对角元
…
对于单纯矩阵,算子2范数就是最大特征值 λ 1 \lambda_1 λ1;
然而,更一般的情况下,根据EVD/SVD的几何意义,特征向量是变换后仅受缩放的向量(左图),奇异向量才是变换中拉伸效果最大的向量(右图)
也就是说, ∥ A ∥ 2 2 = max ∥ x ∥ = 1 x H A H A x = λ m a x ( A H A ) \displaystyle \Vert A\Vert^2_2=\displaystyle\max_{\Vert\mathbf{x}\Vert=1}\mathbf{x}^{H}A^{H}A\mathbf{x}=\lambda_{\mathrm{max}}(A^{H}A) ∥A∥22=∥x∥=1maxxHAHAx=λmax(AHA),证明见 奇异值分解的几何意义
因此,最大奇异值 σ 1 \sigma_1 σ1 给出了算子2范数,对应的受到最大程度拉伸的向量是右奇异向量( A v 1 = σ 1 u 1 \mathbf {A}\mathbf v_1=\sigma_1 \mathbf u_1 Av1=σ1u1)
故此最优化问题的解是 ∥ A ∥ a = max ∥ A x ∥ a ∥ x ∥ a = ∥ A v 1 ∥ ∥ v 1 ∥ = ∥ σ 1 u 1 ∥ ∥ v 1 ∥ = σ 1 {\left\|\boldsymbol A \right\|_a} = \max \frac{{\left\| {\boldsymbol A\bold x} \right\|_a}}{{\left\| \bold x \right\|_a}}= \frac{{\left\| {\boldsymbol A{\bold v_1}} \right\|}}{{\left\| {{\bold v_1}} \right\|}} = \frac{{\left\| {{\sigma _1}{\bold u_1}} \right\|}}{{\left\| {{\bold v_1}} \right\|}} = {\sigma _1} ∥A∥a=max∥x∥a∥Ax∥a=∥v1∥∥Av1∥=∥v1∥∥σ1u1∥=σ1
推论:根据范数的性质 ∥ v + w ∥ ≤ ∥ v ∥ + ∥ w ∥ \left\| {\bold v + \bold w} \right\| \le \left\| \bold v \right\| + \left\| \bold w \right\| ∥v+w∥≤∥v∥+∥w∥,由算子2范数有, A + B \bold {A+B} A+B的最大奇异值 ≤ \leq ≤ A \bold {A} A的最大奇异值+ B \bold {B} B的最大奇异值
- 算子1范数 /列和范数: ∥ A ∥ 1 = max ∥ x ∥ 1 = 1 ∥ A x ∥ 1 = max 1 ≤ j ≤ n ∑ i = 1 n ∣ a i j ∣ \displaystyle \Vert A\Vert_1=\max_{\Vert\mathbf{x}\Vert_1=1}\Vert A\mathbf{x}\Vert_1=\max_{1\le j\le n}\sum_{i=1}^n\vert a_{ij}\vert ∥A∥1=∥x∥1=1max∥Ax∥1=1≤j≤nmaxi=1∑n∣aij∣
- 算子 ∞ \infty ∞范数 /行和范数: ∥ A ∥ ∞ = max ∥ x ∥ ∞ = 1 ∥ A x ∥ ∞ = max 1 ≤ i ≤ n ∑ j = 1 n ∣ a i j ∣ \displaystyle \Vert A\Vert_{\infty}=\max_{\Vert\mathbf{x}\Vert_{\infty}=1}\Vert A\mathbf{x}\Vert_{\infty}=\max_{1\le i\le n}\sum_{j=1}^n\vert a_{ij}\vert ∥A∥∞=∥x∥∞=1max∥Ax∥∞=1≤i≤nmaxj=1∑n∣aij∣
核范数
核范数/ 迹范数: ∥ A ∥ N u c l e a r = σ 1 + ⋯ + σ r {\left\| \boldsymbol A \right\|_{Nuclear}} = {\sigma _1} + \cdots + {\sigma _r} ∥A∥Nuclear=σ1+⋯+σr
酉不变范数:与奇异值有关的范数
酉不变范数是指,矩阵
A
A
A与酉矩阵
U
U
U、
V
V
V相乘后,该矩阵的范数不变,即:
∥
U
A
V
∥
=
∥
A
∥
\|UAV\|=\|A\|
∥UAV∥=∥A∥
显然,计算酉不变范数时,可以应用SVD:
∥
A
∥
=
∥
U
Σ
V
H
∥
=
∥
Σ
∥
\|A\|=\|U\Sigma V^H\|=\|\Sigma\|
∥A∥=∥UΣVH∥=∥Σ∥,因此,酉不变范数必然可以写作奇异值的函数
在上面介绍的范数中,
F范数
∥
⋅
∥
m
2
\|\cdot\|_{m2}
∥⋅∥m2 和 谱范数
∥
⋅
∥
2
\|\cdot\|_2
∥⋅∥2是酉不变范数;
算子范数
∥
⋅
∥
1
\|\cdot\|_{1}
∥⋅∥1 和
∥
⋅
∥
∞
\|\cdot\|_{\infty}
∥⋅∥∞不是酉不变范数
上面的F范数、算子2范数、核范数都是酉不变范数,进而都与奇异值有关;若将矩阵视为广义的向量,那么文章来源:https://www.toymoban.com/news/detail-715724.html
- 矩阵的核范数相当于向量的L1范数, ∥ A ∥ N u c l e a r = σ 1 + ⋯ + σ r {\left\| \boldsymbol A \right\|_{Nuclear}} = {\sigma _1} + \cdots + {\sigma _r} ∥A∥Nuclear=σ1+⋯+σr
- 矩阵的F范数类似向量的 ℓ 2 \ell ^2 ℓ2范数, ∥ A ∥ F = σ 1 2 + ⋯ + σ r 2 {\left\| \boldsymbol A \right\|_F} =\sqrt {\sigma _1^2 + \cdots + \sigma _r^2} ∥A∥F=σ12+⋯+σr2
- 矩阵的算子2范数像向量的 ℓ ∞ \ell ^\infty ℓ∞范数, ∥ A ∥ 2 = r ( A H A ) = σ 1 {\left\| \bold A \right\|_2} =\sqrt{r(\bold A^H\bold A)}=\sigma_1 ∥A∥2=r(AHA)=σ1
reference:
MIT 18.065—机器学习中的矩阵方法08 向量和矩阵的范数
赋范向量空间
向量范数
矩阵范数文章来源地址https://www.toymoban.com/news/detail-715724.html
到了这里,关于矩阵理论| 基础:矩阵范数的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!