【概率论理论】协方差，协方差矩阵理论(机器学习)

这篇具有很好参考价值的文章主要介绍了【概率论理论】协方差，协方差矩阵理论(机器学习)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

在许多算法中需要求出两个分量间相互关系的信息。协方差就是描述这种相互关联程度的一个特征数。

一、协方差是什么？

设 $(X, Y)$ 是一个二维随机变量，若 $E [(X - E (X)) (Y - E (Y))]$ 存在，则称此数学期望为 $X$ 与 $Y$ 的协方差，或称为 $X$ 与 $Y$ 的相关（中心）矩，并记为
$c o v (X, Y) = E [(X - E (X)) (Y - E (Y))]$ 特别有 $C o v (X, X) = V a r (X)$ .

当cov(X,Y)>0时，称X与Y正相关，这时两个偏差(X-E(X))与有同时增加或同时减少的倾向.由于E(X)与E(Y)都是常数，故等价于X与Y同时增加或同时减少的倾向，这就是正相关的含义。
当cov(X,Y)>0时，称X与Y负相关.
当cov(X,Y)=0时，称X与Y不相关.

$C o v (a X, b X) = a b C o v (X, Y)$
由上述性质可得，未预处理的数据的协方差仅有正负号为有用信息，即表示变量间呈现正负相关。

二、协方差矩阵是什么？

记n维随机变量为 $X= (X_1,X_2,...,X_n)^{'}$ ,若其每个分量的数字期望都存在，则称
$E(X)=(E(X_1),E(X_2),...,E(X_n))^{'}$
为n维随机向量X的数学期望向量，简称为X的数学期望，而称
$E[(X-E(X))(X-E(X))^{'}]=\begin{bmatrix} Var(X_1) &Cov(X_1,X_2) &\cdots&Cov(X_1,X_n) \\ Cov(X_2,X_1)&Var(X_2) &\cdots &Cov(X_2,X_p) \\ \vdots& \vdots& \ddots& \vdots\\ Cov(X_n,X_1)&Cov(X_n,X_2) &\cdots &Var(X_n) \\\end{bmatrix}$
为该随机向量的方差协方差矩阵，简称协方差阵，记为Cov(X).
协方差矩阵的一般求法:

# 求矩阵X_train的协方差矩阵cov_X;
# 只有去均值后才可以直接X与X的逆相乘取均值得协方差矩阵
import numpy as np

# 通过推导公式求协方差  (XX.T,因为是属性与属性的相关关系，所以公式中矩阵X为每一行表示一个feature)
def get_cov(X):
    """
    注意：分母为样本数减1
    """
    X_ = X-np.vstack(X.mean(axis= 1))
    cov_X = np.dot(X_, X_.T)/(X_.shape[1]-1)
    return cov_X

#get_cov(X.T)等价于
cov_X = np.cov(X,rowvar=0) # 计算协方差矩阵，rowvar=0表示数据的每一列代表一个feature

#可直接求出相关系数矩阵
coef_X = no.coffcoef(X_train)

三、协方差矩阵与相关系数矩阵

协方差矩阵与相关系数矩阵区别为，相关系数矩阵是标准后的协方差矩阵，即在PCA中，当量纲相同时用协方差矩阵&相关系数矩阵，但是当量纲不同时为了消除不同量纲间的影响（出现大数吃小数现象）,要使用相关系数矩阵，相关系数矩阵除了描述正负相关外还描述关联的程度大小。
Pearson相关系数的公式：
$\rho_{X,Y}=\frac{cov(X,Y)}{\sigma_X\sigma_Y}=\frac{E[(X-E(X))(Y-E(Y)]}{\sigma_X\sigma_Y}$
注意：在求相关系数矩阵是，当两个变量之间的有一个的标准差为0，那么求得的相关系数矩阵会出现nan。