第十五章奇异值分解-Toy模板网

这篇具有很好参考价值的文章主要介绍了第十五章奇异值分解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

引入

奇异值分解（SVD）是一种矩阵因子分解方法。

任意一个 $m\times n$ 矩阵，都可以表示为三个矩阵的乘积（因子分解）形式，分别是 $n$ 阶正交矩阵、由降序排列的非负的对角线元素组成的 $m\times n$ 的矩形对角矩阵和 $n$ 阶正交矩阵。

矩阵的奇异值分解一定存在，但不唯一。

奇异值分解可以看做矩阵数据压缩的一种方法，即用因子分解的方式近似地表示原始矩阵，这种近似是在平方损失意义下的最优近似。

奇异值分解的定义与性质

定义与定理

定义15.1（奇异值分解）矩阵的奇异值分解是指，将一个非零的 $m\times m$ 实矩阵 $A\in R^{m\times n}$ ，表示为一下三个实矩阵乘积形式的运算，即进行矩阵的因子分解： $A=U\Sigma V^T$
其中 $U$ 是 $m$ 阶正交矩阵， $V$ 是 $n$ 阶正交矩阵， $\Sigma$ 是由降序排列的非负的对角元素组成的 $m\times n$ 矩形对角矩阵，满足 $\begin{aligned}&UU^T=I\\&VV^T=I\\&\Sigma=diag(\sigma_1,...,\sigma_p)\\&\sigma_1\ge\sigma_2\ge...\ge\sigma_p\ge 0\\&p=\min(m,n)\end{aligned}$
其中 $\sigma_i$ 称为 $A$ 的奇异值， $U$ 的列向量称为左奇异向量， $V$ 的列向量称为右奇异向量。

定理15.1（奇异值分解基本定理）若 $A$ 为一个 $m\times n$ 实矩阵， $A\in R^{m\times n}$ ，则 $A$ 的奇异值存在。

紧奇异值分解与截断奇异值分解

定理15.1给出的奇异值分解称为矩阵的完全奇异值分解。实际常用的是奇异值分解的紧凑形式和截断形式。

紧奇异值分解是与原始矩阵等秩的奇异值分解；截断奇异值分解是比原始矩阵低秩的奇异值分解。

紧奇异值分解

定义15.2设有 $m\times n$ 实矩阵 $A$ ，其秩为 $r a n k (A) = r$ ， $r\le \min(m,n)$ ，则称 $U_r\Sigma_rV_r^T$ 为 $A$ 的紧奇异值分解，即 $A=U_r\Sigma_rV_r^T$
其中， $U_r$ 是 $m\times r$ 矩阵， $V_r$ 是 $n\times r$ 矩阵， $\Sigma_r$ 是 $r$ 阶对角矩阵；这些元素都是完全奇异值分解中对应元素的前 $r$ 列。

截断奇异值分解

在矩阵的奇异值分解中，只取最大的 $k$ 个奇异值（ $k\lt r$ ， $r$ 为矩阵的秩），对应的部分，就得到矩阵的截断奇异值分解。

实际应用中提及奇异值分解，通常指的是截断奇异值分解。

定义15.3设有 $m\times n$ 实矩阵 $A$ ，其秩为 $r a n k (A) = r$ ， $0\lt k\lt r$ ，则称 $U_k\Sigma_kV_k^T$ 为 $A$ 的紧奇异值分解，即 $A=U_k\Sigma_kV_k^T$
其中， $U_k$ 是 $m\times k$ 矩阵， $V_k$ 是 $n\times k$ 矩阵， $\Sigma_k$ 是 $k$ 阶对角矩阵；这些元素都是完全奇异值分解中对应元素的前 $k$ 列。

奇异值分解是在平方损失（福罗贝尼乌斯范数）意义下对矩阵的最优近似。紧奇异值分解对应着无损压缩，截断奇异值分解对应着有损压缩。

几何解释

$m\times n$ 矩阵 $A$ 表示从 $n$ 维空间 $R^n$ 到 $m$ 维空间 $R^m$ 的一个线性变换（关于线性变换可以参考线性变换和矩阵乘法）， $T:x\to Ax$

在这里，我简单地总结一下：

坐标相当于是对基的缩放;
线性变换矩阵的每一列表示的是变换之后的基；
矩阵的乘法可以理解为，一个矩阵中的每一个基视为一个列向量，得到其在左乘矩阵后的表示，然后这作为基来变换原向量。

线性变换可以分解为三个简单的变换：一个坐标系的旋转（线性变换矩阵的列向量可以视为基做变换之后）或反射变换、一个坐标轴的缩放变换、另一个坐标系的旋转或反射变换。

$V, U$ 都是正交矩阵，所以 $V$ 的列向量构成 $R^n$ 空间的一组标准正交基，表示 $R^n$ 中的正交坐标系的旋转或反射变换； $U$ 的列向量构成 $R^m$ 空间的一组标准正交基，表示 $R^m$ 中的正交坐标系的旋转或反射变换； $\Sigma$ 表示 $R_n$ 中的原始正交坐标系坐标轴的 $\sigma_1,...,\sigma_n$ 倍的缩放变换。

奇异值分解,机器学习,线性代数,矩阵,算法

正交变换不改变基的长度，只改变其角度。相当于就是把这个角度变换和长度变换分开进行了。

矩阵的奇异值分解也可以看作是将对应的线性变换分解为旋转变换、缩放变换、旋转变换的组合。

矩阵关于空间的部分概念

奇异值分解,机器学习,线性代数,矩阵,算法

奇异值分解,机器学习,线性代数,矩阵,算法
值域:某个空间中所有向量经过变换矩阵后形成的向量的集合,通常用R(A)来表示，A 是变换矩阵。

这篇文章也可以参考。

比如说以 $(1, 0, 0), (0, 1, 0)$ 为基的xy平面就是三维向量空间的子空间。这个子空间的维数就是2。

主要性质

（1）设矩阵 $A$ 的奇异值分解为 $A=U\Sigma V^T$ ，则下列关系成立 $\begin{aligned}&A^TA=(U\Sigma V^T)^T(U\Sigma V^T)=V(\Sigma^T\Sigma)V^T\\&AA^T=U(\Sigma\Sigma^T)U^T\end{aligned}$
这表明了，矩阵 $A^TA,AA^T$ 的特征分解存在，且可以由 $A$ 的奇异值分解的矩阵表示。 $V$ 的列向量是 $A^TA$ 的特征向量， $\Sigma$ 的奇异值是 $A^TA$ 的特征值的平方根，这对 $AA^T$ 也成立。因为 $U, V$ 正交，说白了这就是一个相似变换，这俩矩阵相似！特征值自然就对应上了咯。

（2）在矩阵 $A$ 的奇异值分解中，奇异值、左奇异向量和右奇异向量之间存在对应关系。

（3）在矩阵 $A$ 的奇异值分解中，奇异值 $\sigma_1,\sigma_2,...,\sigma_n$ 是唯一的，而俩正交矩阵不是。（联想一下，这个相似变换的特征值是唯一的，但是这个特征向量不是）

（4）矩阵 $A$ 和 $\Sigma$ 的秩相等，等于正奇异值 $\sigma_i$ 的个数 $r$ 。

（5.1）矩阵 $A$ 的 $r$ 个右奇异向量构成 $A^T$ 的零空间 $N (A)$ 的一组标准正交基（为什么是 $A^T$ ，因为这样他的值域才是与右奇异向量相关）。

（5.2）矩阵 $A$ 的 $n - r$ 个右奇异向量构成 $A$ 的值域 $R(A^T)$ 的一组标准正交基。

（5.3）矩阵 $A$ 的 $r$ 个左奇异向量构成 $A$ 的值域 $R (A)$ 的一组标准正交基。

（5.4）矩阵 $A$ 的 $m - r$ 个左奇异向量构成 $A^T$ 的零空间 $N(A^T)$ 的一组标准正交基。

奇异值分解的计算

奇异值分解基本定理证明的过程蕴含了奇异值分解的计算方法。

矩阵 $A$ 的奇异值分解可以通过求对称矩阵 $A^TA$ 的特征值和特征向量得到（性质1）：

$A^TA$ 的特征向量构成正交矩阵 $V$ 的列；
$A^TA$ 的特征值 $\lambda_j$ 的平方根为奇异值 $\sigma_j$ 。对其由大到小排列作为对角线元素，构成对角矩阵 $\Sigma$ ；
求正奇异值对应的左奇异向量，再求扩充的 $A^T$ 的标准正交基，构成正交矩阵 $U$ 的列。

奇异值分解,机器学习,线性代数,矩阵,算法

我们在 $R (A)$ 中找到了 $r$ 个左奇异向量，接着要从 $N(A^T)$ 找到剩下的 $m - r$ 个左奇异向量，这是根据性质5得到的。

奇异值分解,机器学习,线性代数,矩阵,算法

奇异值分解与矩阵近似

弗罗贝尼乌斯范数

奇异值分解也是一种矩阵近似的方法，这个近似是在弗罗贝尼乌斯范数意义下的近似。

矩阵的弗罗贝尼乌斯范数是向量的 $L 2$ 范数的直接推广，对应着机器学习中的平方损失函数。

**定义15.4（弗罗贝尼乌斯范数）**设矩阵 $A\in R^{m\times n},A=[a_{ij}]_{m\times n}$ 定义矩阵 $A$ 的弗罗贝尼乌斯范数为 $\|A\|_F=(\sum_{i=1}^m\sum_{j=1}^n(a_{ij}))^{\frac{1}{2}}$

引理15.1设矩阵 $A\in R^{m\times n}$ ， $A$ 的奇异值分解为 $U\Sigma V^T$ ，其中 $\Sigma=diag(\sigma_1,\sigma_2,...,\sigma_n)$ ，则 $\|A\|_F=(\sigma_1^2+\sigma_2^2+...+\sigma_n^2)^\frac{1}{2}$

矩阵的近似最优

奇异值分解是在平方损失意义下对矩阵的最优近似，即数据压缩。

定理15.2 设矩阵 $A\in R^{m\times n}$ ，矩阵的秩 $r a n k (A) = r$ ，并设 $\mathbb{M}$ 为 $R^{m\times n}$ 中所有秩不超过 $k$ 的矩阵集合， $0\lt r\lt k$ ，则存在一个秩为 $k$ 的矩阵 $X\in\mathbb{M}$ ，使得 $\|A-X\|_F=\min_{S\in\mathbb{M}}\|A-S\|_F$
称矩阵 $X$ 为 $A$ 在弗罗内尼乌斯范数意义下的最优近似。

定理15.3 设矩阵 $A\in R^{m\times n}$ ，矩阵的秩 $r a n k (A) = r$ ，有奇异值分解 $A=U\Sigma V^T$ ，并设 $\mathbb{M}$ 为 $R^{m\times n}$ 中所有秩不超过 $k$ 的矩阵集合，若秩为k的矩阵 $X$ 是 $A$ 在弗罗内尼乌斯范数意义下的最优近似。