主成分分析笔记-Toy模板网

这篇具有很好参考价值的文章主要介绍了主成分分析笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

主成分分析是指在尽量减少失真的前提下，将高维数据压缩成低微的方式。

减少失真是指最大化压缩后数据的方差。

记 $P$ 矩阵为 $n\times m$ （ $n$ 行 $m$ 列）的矩阵，表示一共有 $m$ 组数据，每组数据有 $n$ 个维度。

欲将此数据集降为 $k$ 维，即求 $k\times m$ 的矩阵 $A$ 。

思路是获得一种针对 $n$ 维的变换方法，将 $n$ 位列向量转为 $k$ 位列向量。然后对全部 $m$ 组数据分别应用此变换，这样就得到答案。

变换方法是使用形如 $A = XP$ 的算式。问题变为求 $k\times n$ 矩阵 $X$ 。

引入协方差的概念。

协方差是刻画两个列向量 $X=\{x_1,x_2,\dots,x_n\}^\text{T},Y=\{y_1,y_2,\dots,y_n\}^\text{T}$ 的相异程度。对于同一行来说，两个列向量在此行的数值相差越大，就会使协方差越大。
$Cov(X,Y)=\sum_{i=1}^{n}{(x_i-\hat{x})(y_i-\hat{y})}$