矩阵理论| 基础：矩阵范数-Toy模板网

这篇具有很好参考价值的文章主要介绍了矩阵理论| 基础：矩阵范数。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

矩阵范数

类似向量范数，矩阵范数需要满足以下条件：
$\Vert A\Vert\ge 0$ ， $\Vert A\Vert=0$ 当且仅当 $A = 0$
$\Vert cA\Vert=\vert c\vert\cdot\Vert A\Vert$
$\Vert A+B\Vert\le\Vert A\Vert+\Vert B\Vert$

范数等价的概念：

范数 $\|\cdot\|_a$ 和范数 $\|\cdot\|_b$ 等价 $\iff$ 存在 $0 < m < M$ 使 $m\|A\|_a<\|A\|_b<M\|A\|_a$
和向量范数一样，空间中任意两个矩阵范数均等价

另外，我们一般讨论的都是相容（自相容）的矩阵范数：

自相容的范数，满足 $\Vert AB\Vert\le\Vert A\Vert\cdot\Vert B\Vert$
矩阵的 $m_1$ 、 $m_2$ 范数是自相容的， $m_{\infty}$ 范数不相容

例如， $AB=\begin{bmatrix}1 & 1\\ 1 &1\end{bmatrix}\begin{bmatrix}1 & 1\\ 1 &1\end{bmatrix}=\begin{bmatrix}2 & 2\\ 2 &2\end{bmatrix}$ ，但 $\| AB\|_{m_\infty} =2>1=\Vert A\Vert_{m_\infty}\cdot\Vert B\Vert_{m_\infty}$

m范数

从向量Lp范数推广，（将矩阵视为向量），可以直接得到矩阵范数 / m范数：

$m_1$ 范数： ${\left\| \bold A \right\|_{m_1}} = \sum_{i}\sum_{j}|a_{ij}|$
$m_2$ 范数/ Frobenius范数，： ${\left\| \bold A \right\|_{m_2}} = \sqrt{\sum_{i}\sum_{j}|a_{ij}|^2}$
等价计算式1： $\Vert \boldsymbol A\Vert_{F}=\sqrt{\mathrm{trace}(A^{H}A)}$
等价计算式2： ${\left\| \boldsymbol A \right\|_F} = \sqrt {\sigma _1^2 + \cdots + \sigma _r^2}=\sqrt{\sum_{i=1}^r\sigma_i^2}$

关于 ${\left\| \boldsymbol A \right\|_F} =\sqrt{\sum_{i=1}^r\sigma_i^2}$ 的理解：

理解①： $\boldsymbol A = \boldsymbol {U\Sigma} {\boldsymbol V^T}$ ，而酉矩阵不改变Frobenius范数，故 ${\left\| \bold A \right\|_{F}}={\left\| \bold \Sigma \right\|_{F}}$ ，而 $\bold \Sigma$ 的m2范数正是 $\sqrt {\sigma _1^2 + \cdots + \sigma _r^2}$

理解②：由 $\Vert A\Vert_{F}=\sqrt{\mathrm{trace}(A^{H}A)}$ 可推出，因为 $\mathrm{trace}(A^{H}A)=\lambda_1+...+\lambda_n=\sigma _1^2 + \cdots + \sigma _r^2$ （其中 $\lambda$ 为 $A^{H}A$ 的特征值， $\sigma_1\ge\cdots\ge \sigma_r>0=\sigma_{r+1}=\cdots=\sigma_{min\{m,n\}}$ 为 $A$ 的奇异值）

$m_\infty$ 范数： ${\left\| \bold A \right\|_{m_\infty} } = \max \{\left| {a_{ij}} \right|\}$

实际上矩阵范数却不存在公认唯一的度量方式。
上述的矩阵范数，仅是将矩阵视为广义的向量，却忽略了矩阵的“线性变换”意义（矩阵具有移动向量空间的能力）

算子范数

从向量范数出发，也可以矩阵的算子范数（operator norm），准确的说应该是 [从属于向量范数 $\|\cdot\|_a$ 的算子范数]： ${\left\|\boldsymbol A \right\|_a} = \max \frac{{\left\| {\boldsymbol A\bold x} \right\|_a}}{{\left\| \bold x \right\|_a}}= \max_{{{\left\| \bold x \right\|_a}}=1} {\left\| {\boldsymbol A\bold x} \right\|_a}$

理解：根据定义，算子范数就是将矩阵 $\boldsymbol A$ 视为一个线性变换，它作用于向量后使得向量伸缩变形，只要在所有向量中找出最大的“伸缩量”（大小的度量准则是某种向量范数），就得到了算子范数

另一方面，可以从“相容”的角度来理解算子范数：

一开始说过，自相容的矩阵范数满足 $\Vert AB\Vert\le\Vert A\Vert\cdot\Vert B\Vert$ ，
也可以推广，定义 [与向量范数 $\|\cdot\|_a$ 相容的矩阵范数]，它满足 $\Vert A\mathbf{x}\Vert_a\le\Vert A\Vert\cdot\Vert\mathbf{x}\Vert_a$
当 $\mathbf{x}\neq\mathbf{0}$ ，则有 $\displaystyle\Vert A\Vert\ge\frac{\Vert A\mathbf{x}\Vert}{\Vert\mathbf{x}\Vert}$

据此，我们定义 [从属于向量范数 $\|\cdot\|_a$ 的算子范数]： $\displaystyle\Vert A\Vert_a=\max_{\mathbf{x}\neq\mathbf{0}}\frac{\Vert A\mathbf{x}\Vert_a}{\Vert\mathbf{x}\Vert_a}$

实际上，给定一个向量范数 $\|\cdot\|_a$ ，必然存在与该向量范数向量范数 $\|\cdot\|_a$ 相容的矩阵范数；
并且，在所有与 $\|\cdot\|_a$ 相容的矩阵范数中，算子范数是其中最小的一个（从上式可以直接看出）
另外，算子范数必然是自相容的矩阵范数（满足 $\|AB\|_a\le\|A\|_{a}\|B\|_a$ ）

上面相当于用向量范数定义了矩阵范数
反过来同样的，可以从“相容”的角度出发，用矩阵范数定义向量范数：
给定一个自相容的矩阵范数 $\|\cdot\|_{m}$ ，一定存在与之相容的向量范数 $\|\cdot\|$ （使得 $\|Ax\|\le\|A\|_{m}\|x\|$ ）

最常用的算子范数

谱范数 /算子2范数（从属于向量范数 ${\left\| \bold x \right\|_2}$ 的算子范数）： ${\left\| \bold A \right\|_2} =\sqrt{r(\bold A^H\bold A)}=\sigma_1$
其中， $r(\bold A)$ 为矩阵 $\bold A$ 的谱半径，而 $\sigma_1$ 为矩阵 $\bold A$ 最大的奇异值

理解：向量 $\ell ^2$ 范数就是向量的几何长度，求算子范数就是找向量的最大伸缩量
从这个意义理解，显然单位阵 $I$ 的算子2范数为1；
正交矩阵/酉矩阵的算子2范数为1；
对角矩阵的算子2范数为最大对角元
…
对于单纯矩阵，算子2范数就是最大特征值 $\lambda_1$ ；

然而，更一般的情况下，根据EVD/SVD的几何意义，特征向量是变换后仅受缩放的向量（左图），奇异向量才是变换中拉伸效果最大的向量（右图）
也就是说， $\displaystyle \Vert A\Vert^2_2=\displaystyle\max_{\Vert\mathbf{x}\Vert=1}\mathbf{x}^{H}A^{H}A\mathbf{x}=\lambda_{\mathrm{max}}(A^{H}A)$ ，证明见奇异值分解的几何意义
因此，最大奇异值 $\sigma_1$ 给出了算子2范数，对应的受到最大程度拉伸的向量是右奇异向量（ $\mathbf {A}\mathbf v_1=\sigma_1 \mathbf u_1$ ）
故此最优化问题的解是 ${\left\|\boldsymbol A \right\|_a} = \max \frac{{\left\| {\boldsymbol A\bold x} \right\|_a}}{{\left\| \bold x \right\|_a}}= \frac{{\left\| {\boldsymbol A{\bold v_1}} \right\|}}{{\left\| {{\bold v_1}} \right\|}} = \frac{{\left\| {{\sigma _1}{\bold u_1}} \right\|}}{{\left\| {{\bold v_1}} \right\|}} = {\sigma _1}$

推论：根据范数的性质 $\left\| {\bold v + \bold w} \right\| \le \left\| \bold v \right\| + \left\| \bold w \right\|$ ，由算子2范数有， $\bold {A+B}$ 的最大奇异值 $\leq$ $\bold {A}$ 的最大奇异值+ $\bold {B}$ 的最大奇异值

算子1范数 /列和范数： $\displaystyle \Vert A\Vert_1=\max_{\Vert\mathbf{x}\Vert_1=1}\Vert A\mathbf{x}\Vert_1=\max_{1\le j\le n}\sum_{i=1}^n\vert a_{ij}\vert$
算子 $\infty$ 范数 /行和范数： $\displaystyle \Vert A\Vert_{\infty}=\max_{\Vert\mathbf{x}\Vert_{\infty}=1}\Vert A\mathbf{x}\Vert_{\infty}=\max_{1\le i\le n}\sum_{j=1}^n\vert a_{ij}\vert$

核范数

核范数/ 迹范数： ${\left\| \boldsymbol A \right\|_{Nuclear}} = {\sigma _1} + \cdots + {\sigma _r}$

酉不变范数：与奇异值有关的范数

酉不变范数是指，矩阵 $A$ 与酉矩阵 $U$ 、 $V$ 相乘后，该矩阵的范数不变，即： $\|UAV\|=\|A\|$
显然，计算酉不变范数时，可以应用SVD： $\|A\|=\|U\Sigma V^H\|=\|\Sigma\|$ ，因此，酉不变范数必然可以写作奇异值的函数

在上面介绍的范数中，
F范数 $\|\cdot\|_{m2}$ 和谱范数 $\|\cdot\|_2$ 是酉不变范数；
算子范数 $\|\cdot\|_{1}$ 和 $\|\cdot\|_{\infty}$ 不是酉不变范数

上面的F范数、算子2范数、核范数都是酉不变范数，进而都与奇异值有关；若将矩阵视为广义的向量，那么

矩阵的核范数相当于向量的L1范数， ${\left\| \boldsymbol A \right\|_{Nuclear}} = {\sigma _1} + \cdots + {\sigma _r}$
矩阵的F范数类似向量的 $\ell ^2$ 范数， ${\left\| \boldsymbol A \right\|_F} =\sqrt {\sigma _1^2 + \cdots + \sigma _r^2}$
矩阵的算子2范数像向量的 $\ell ^\infty$ 范数， ${\left\| \bold A \right\|_2} =\sqrt{r(\bold A^H\bold A)}=\sigma_1$