【线性代数/机器学习】矩阵的奇异值与奇异值分解（SVD）-Toy模板网

这篇具有很好参考价值的文章主要介绍了【线性代数/机器学习】矩阵的奇异值与奇异值分解（SVD）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、引言

我们知道，对于一个 $n\times n$ 的矩阵 $A$ ，如果 $A$ 有 $n$ 个线性无关的特征向量，则 $A$ 可以相似对角化，即存在可逆矩阵 $P$ 使得 $A=P\Lambda P^{-1}$ ，其中 $\Lambda$ 是 $A$ 的特征值组成的对角阵。 $P$ 的列实际上就是 $A$ 的特征向量。把 $A$ 分解为 $P\Lambda P^{-1}$ 的过程称为矩阵的特征值分解（eigendecomposition）。但是，对于 $m\times n$ 的矩阵，其中 $m\ne n$ ，我们就无能为力了。此时我们应该怎么分解这个矩阵呢？这里我们就引入了奇异值分解（singular value decomposition, SVD）的概念。

二、奇异值

设 $A$ 是一个 $m\times n$ 矩阵。我们对特征值已经比较熟悉了，所以我们对奇异值的定义也是从特征值出发获得的。什么样的矩阵具有特征值呢？答案是方阵。但 $A$ 不一定是方阵，不过我们有办法把它变成方阵—— $A^TA$ 是一个 $n\times n$ 的方阵。我们接下来考察 $A^T A$ 的特征值。

引理1 $A^T A$ 的每个特征值 $\lambda$ 都大于等于 $0$ 。

证明：设 $A^T A\boldsymbol{x}=\lambda\boldsymbol{x}$ ，其中 $\boldsymbol{x}$ 是 $A^T A$ 的一个特征向量。则 $\boldsymbol{x}^T A^TA\boldsymbol{x}=\lambda \boldsymbol{x}^T\boldsymbol{x}\\ \|A\boldsymbol{x}\|^2=\lambda\|\boldsymbol{x}\|^2$ 注意 $\|A\boldsymbol{x}\|^2$ 与 $\|\boldsymbol{x}\|^2$ 都是非负数，故 $\lambda\ge 0$ 。∎

现在我们来定义奇异值（singular value）。

定义2 设 $\lambda_1,\lambda_2,\cdots,\lambda_n$ 是 $A^T A$ 的奇异值，满足 $\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_n\ge 0$ 。定义 $\sigma_i=\sqrt{\lambda_i}$ ，则 $\sigma_1\ge\sigma_2\ge\cdots\ge\sigma_n\ge 0$ 。这些 $\sigma_i$ 称为 $A$ 的奇异值。

命题3 $A$ 的非零奇异值个数等于 $A$ 的秩。

证明：即证 $r(A^T A)=r(A)$ 。考虑齐次线性方程组 $A^TA\boldsymbol{x}=\boldsymbol{0}$ ，设 $\boldsymbol{\xi}$ 为它的一个解，即 $A^T A\boldsymbol{\xi}=\boldsymbol{0}$ ，则 $\boldsymbol{\xi}^T A^T A\boldsymbol{\xi}=\boldsymbol{0}$ ，即 $\|A\boldsymbol{\xi}\|^2=0$ ，故 $A\boldsymbol{\xi}=0$ 。这说明 $A^T A\boldsymbol{x}=0$ 的解也是 $A\boldsymbol{x}=0$ 的解。同时 $A\boldsymbol{x}=0$ 的解显然也是 $A^T A\boldsymbol{x}=0$ 的解，因此两个线性方程组同解，这说明 $r(A^T A)=r(A)$ 。∎

很多时候我们会遇到这样一个问题： $\|\boldsymbol{x}\|$ 和 $\|A\boldsymbol{x}\|$ 的大小有怎样的关系呢？把矩阵 $A$ 看作一个线性变换，它作用于 $\boldsymbol{x}$ 上可以改变其长度，那么长度最多变化多少倍呢？有了奇异值，我们就可以很方便地解决这个问题。

命题4 设 $A$ 是一个 $m\times n$ 矩阵， $\boldsymbol{x}$ 是一个 $n\times 1$ 向量。则 $\|A\boldsymbol{x}\|\le\sigma_1\|\boldsymbol{x}\|$ ，其中 $\sigma_1$ 是 $A$ 最大的奇异值，且取等条件为 $\boldsymbol{x}$ 是 $A^T A$ 对应于特征值 $\sigma_1^2$ 的特征向量。

证明：注意 $A^T A$ 是实对称矩阵，所以它存在单位正交特征向量组 $\boldsymbol{v}_1,\boldsymbol{v}_2,\cdots,\boldsymbol{v}_n$ 。若 $\boldsymbol{x}\in\mathbb{R}^n$ ，则可以把 $\boldsymbol{x}$ 表示为 $\boldsymbol{x}=c_1\boldsymbol{v}_1+c_2\boldsymbol{v}_2+\cdots+c_n\boldsymbol{v}_n$ 其中 $c_1,c_2,\cdots,c_n$ 是标量，满足 $c_1^2+c_2^2+\cdots+c_n^2=\|\boldsymbol{x}\|^2$ 。再考察 $\|A\boldsymbol{x}\|^2$ ： $\|A\boldsymbol{x}\|^2=\boldsymbol{x}^T A^T A\boldsymbol{x}=\langle\boldsymbol{x},A^T A \boldsymbol{x}\rangle=\left\langle\sum\limits_{i=1}^n c_i\boldsymbol{v}_i,\sum\limits_{i=1}^n c_i A^T A \boldsymbol{v}_i\right\rangle$ 注意 $\boldsymbol{v}_i$ 是 $A^T A$ 对应于特征值 $\sigma_i^2$ 的特征向量，故 $A^T A\boldsymbol{v}_i=\sigma_i^2\boldsymbol{v}_i$ 。因此 $\|A\boldsymbol{x}\|^2=\left\langle\sum\limits_{i=1}^n c_i\boldsymbol{v}_i,\sum\limits_{i=1}^n c_i \sigma_i^2 \boldsymbol{v}_i\right\rangle= \sum\limits_{i=1}^n c_i^2\sigma_i^2\le\sum\limits_{i=1}^n c_i^2\sigma_1^2=\sigma_1^2\|\boldsymbol{x}\|^2$ 取等条件为 $c_1^2=\|\boldsymbol{x}\|^2$ 且 $c_2=c_3=\cdots=c_n=0$ ，此时 $\boldsymbol{x}=c_1\boldsymbol{v}$ ，故 $\boldsymbol{x}$ 是 $A^T A$ 对应于特征值 $\sigma_1^2$ 的特征向量。证毕。∎

如果 $\boldsymbol{x}\perp\boldsymbol{v}_1$ ，即 $c_1=0$ ，那么同理可证 $\|A\boldsymbol{x}\|\le\sigma_2\|\boldsymbol{x}\|^2$ ；如果 $\boldsymbol{x}\perp\boldsymbol{v}_1$ 且 $\boldsymbol{x}\perp\boldsymbol{v}_2$ ，即 $c_1=c_2=0$ ，则 $\|A\boldsymbol{x}\|\le\sigma_3\|\boldsymbol{x}\|^2$ ；依此类推。

三、奇异值分解的定义

上面介绍了奇异值，下面介绍如何利用奇异值对矩阵进行分解。

设 $A$ 是一个 $m\times n$ 矩阵， $\sigma_1\ge\sigma_2\ge\cdots\ge\sigma_n\ge 0$ 是它的奇异值。令 $r$ 为 $A$ 的秩，也就是 $A$ 非零奇异值的个数。

定义5 $A$ 的一个奇异值分解是具有如下形式的分解： $A=U\Sigma V^T$ 其中

$U$ 是一个 $m\times m$ 正交矩阵；
$V$ 是一个 $n\times n$ 正交矩阵；
$\Sigma$ 是一个 $m\times n$ 矩阵，它非常类似于一个对角矩阵：其第 $i$ 个对角元是 $\sigma_i$ ，对于 $i=1,2,\cdots,r$ 。 $\Sigma$ 的其他元素都是 $0$ 。

例如，当 $A$ 是对称方阵时，它的奇异值实际上就是特征值的绝对值。

四、如何进行奇异值分解

引理6
(1) $\|A\boldsymbol{v}_i\|=\sigma_i$ ；
(2) 若 $i\ne j$ ，则 $A\boldsymbol{v}_i$ 与 $A\boldsymbol{v}_j$ 正交。

证明： $\langle A\boldsymbol{v}_i,A\boldsymbol{v}_j\rangle=\boldsymbol{v}_i^T A^T A\boldsymbol{v}_j=\boldsymbol{v}_i^T\sigma_j^2\boldsymbol{v}_j=\sigma_j^2\langle\boldsymbol{v}_i,\boldsymbol{v}_j\rangle$ 。

若 $i = j$ ，由 $\|\boldsymbol{v}_i\|=1$ 知 $\|A\boldsymbol{v}_i\|^2=\sigma_i^2$ ；
若 $i\ne j$ ，由 $\boldsymbol{v}_i\perp \boldsymbol{v}_j$ 知 $A\boldsymbol{v}_i\perp A\boldsymbol{v}_j$ 。

定理7 设 $A$ 是一个 $m\times n$ 矩阵。则我们可以这样构造一个 $A$ 的奇异值分解 $A=U\Sigma V^T$ ，其中：

$V$ 是 $A^T A$ 的单位正交特征向量组 $\boldsymbol{v}_1,\boldsymbol{v}_2,\cdots,\boldsymbol{v}_n$ ，满足 $A^T A\boldsymbol{v}_i=\sigma_i^2 \boldsymbol{v}_i$ ；
若 $i\le r$ （此时 $\sigma_i\ne 0$ ），则 $U$ 的第 $i$ 列是 $\frac{1}{\sigma_1}A\boldsymbol{v}_i$ 。根据引理6，这些列是单位正交的，其他列可以通过任意地扩充 $\mathbb{R}^m$ 的单位正交基得到。

证明：我们只需证明，如果 $U$ 和 $V$ 按照上面的方式定义，则 $A=U\Sigma V^T$ 。我们无法直接证明 $A=U\Sigma V^T$ ，但是我们可以证明 $\forall\boldsymbol{x}\in\mathbb{R}^n$ ， $U\Sigma V^T\boldsymbol{x}=A\boldsymbol{x}$ 。这就可以说明 $A=U\Sigma V^T$ （因为若 $\forall\boldsymbol{x}\in\mathbb{R}^n$ 都有 $A\boldsymbol{x}=B\boldsymbol{x}$ ，则 $\forall\boldsymbol{x}\in\mathbb{R}^n$ 都有 $(A-B)\boldsymbol{x}=0$ ，即该线性方程组的基础解系的秩为 $n$ ， $r (A - B) = 0$ ， $A - B = O$ ， $A = B$ ）。考虑 $V^T\boldsymbol{x}=\begin{bmatrix}\boldsymbol{v}_1^T\\\boldsymbol{v}_2^T\\\vdots\\\boldsymbol{v}_n^T\end{bmatrix}\boldsymbol{x}=\begin{bmatrix}\boldsymbol{v}_1^T\boldsymbol{x}\\\boldsymbol{v}_2^T\boldsymbol{x}\\\vdots\\\boldsymbol{v}_n^T\boldsymbol{x}\end{bmatrix}$ 则 $\Sigma V^T\boldsymbol{x}=\begin{bmatrix}\sigma_1\boldsymbol{v}_1^T\boldsymbol{x}\\\sigma_2\boldsymbol{v}_2^T\boldsymbol{x}\\\vdots\\\sigma_r\boldsymbol{v}_r^T\boldsymbol{x}\\0\\\vdots\\0\end{bmatrix}$ 左乘 $U$ 得 $\begin{aligned} U\Sigma V^T\boldsymbol{x}&=(\sigma_1\boldsymbol{v}_1^T\boldsymbol{x})\frac{1}{\sigma_1}A\boldsymbol{v}_1+(\sigma_2\boldsymbol{v}_2^T\boldsymbol{x})\frac{1}{\sigma_2}A\boldsymbol{v}_2+\cdots+(\sigma_r\boldsymbol{v}_r^T\boldsymbol{x})\frac{1}{\sigma_r}A\boldsymbol{v}_r\\ &=A\boldsymbol{v}_1\boldsymbol{v}_1^T\boldsymbol{x}+A\boldsymbol{v}_2\boldsymbol{v}_2^T\boldsymbol{x}+\cdots+A\boldsymbol{v}_r\boldsymbol{v}_r^T\boldsymbol{x}\\ &=A\boldsymbol{v}_1\boldsymbol{v}_1^T\boldsymbol{x}+A\boldsymbol{v}_2\boldsymbol{v}_2^T\boldsymbol{x}+\cdots+A\boldsymbol{v}_r\boldsymbol{v}_r^T\boldsymbol{x}+\cdots+A\boldsymbol{v}_n\boldsymbol{v}_n^T\boldsymbol{x}\\ &=A(\boldsymbol{v}_1\boldsymbol{v}_1^T+\boldsymbol{v}_2\boldsymbol{v}_2^T+\cdots+\boldsymbol{v}_n\boldsymbol{v}_n^T)\boldsymbol{x}\\ &=AV^T V\boldsymbol{x}\\ &=A\boldsymbol{x} \end{aligned}$ 注意这里用到了当 $i > r$ 时 $A\boldsymbol{v}_i=\sigma_i=0$ 。这样就证明了 $A=U\Sigma V^T$ 。∎