三大统计学相关系数（pearson、kendall、spearman）-Toy模板网

这篇具有很好参考价值的文章主要介绍了三大统计学相关系数（pearson、kendall、spearman）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、皮尔逊相关系数

前边文章讲了很多了，这里不详细讲了，想了解的可以看这篇。
相似度计算（2）——皮尔逊相关系数

适用范围：
当两个变量的标准差都不为零时，相关系数才有定义，皮尔逊相关系数适用于：
(1) 两个变量之间是线性关系，都是连续数据。
(2) 两个变量的总体是正态分布，或接近正态的单峰分布。
(3) 两个变量的观测值是成对的，每对观测值之间相互独立。

二、斯皮尔曼等级相关系数

斯皮尔曼等级相关系数(Spearman’s rank correlation coefficient)，被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本，n个原始数据被转换成等级数据（做排序），然后再根据公式进行计算。

当没有位次相同的数据时，计算公式：
spearman和kendall,其他,概率论,线性代数
其中：di 表示第i个数据对的位次值之差（即di=Ri-Si），n表示观测样本总数。

如果观测样本中存在位次相同的数据，则需要使用如下计算公式（和皮尔逊相关系数公式中的一个一样）：
spearman和kendall,其他,概率论,线性代数
注：以上所说的Ri和Si是将R和S从大到小（或从小到大）排列后的顺序。

如何理解位次？
答：若存在di=0的情况，则说明存在相同位次，反之，则位次都不相同。

适用范围：
只要两个变量的观测值是成对的等级评定资料（即R和S长度相同），或者是由连续变量观测资料转化得到的等级资料，不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关系数来进行研究。

spearman和pearson使用选择:
1.连续数据，正态分布，线性关系，用pearson相关系数是最恰当，当然用spearman相关系数也可以，就是效率没有pearson相关系数高。
2.上述任一条件不满足，就用spearman相关系数，不能用pearson相关系数。
3.两个定序测量数据之间也用spearman相关系数，不能用pearson相关系数。

三、肯德尔等级相关系数

肯德尔等级相关系数（kendall correlation coefficient），也称kendall秩相关系数。

定义：
n个同类的统计对象按特定属性排序，其他属性通常是乱序的。同序对（concordant pairs）和异序对（discordant pairs）之差与总对数（n*(n-1)/2)的比值定义为Kendall(肯德尔)系数。

计算公式：
R=(P-(n*(n-1)/2-P))/(n*(n-1)/2)=(4P/(n*(n-1)))-1
spearman和kendall,其他,概率论,线性代数
由上图可知，A语文成绩最高，但数学排名为 3，比数学排名为 4和5 的成绩高，贡献5个同序对，即AB和AE。同理，我们发现B、C、D、E分别贡献1、2、1、0个同序对。因此可知：
同序对数：P = 2 + 1 + 2 + 1 + 0 = 6。
异序对数：Q = 10 - 6 = 4 (总对数减去同序对数为异序对数)
因而R=(4 * 6 / (5 * (5 - 1))) -1 = 24 / 20 -1 = 0.2。这一结果显示出强大的排名之间的规律，符合预期。