一、皮尔逊相关系数
前边文章讲了很多了,这里不详细讲了,想了解的可以看这篇。
相似度计算(2)——皮尔逊相关系数
适用范围:
当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
(1) 两个变量之间是线性关系,都是连续数据。
(2) 两个变量的总体是正态分布,或接近正态的单峰分布。
(3) 两个变量的观测值是成对的,每对观测值之间相互独立。
二、斯皮尔曼等级相关系数
斯皮尔曼等级相关系数(Spearman’s rank correlation coefficient),被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据(做排序),然后再根据公式进行计算。
当没有位次相同的数据时,计算公式:
其中:di 表示第i个数据对的位次值之差(即di=Ri-Si),n表示观测样本总数。
如果观测样本中存在位次相同的数据,则需要使用如下计算公式(和皮尔逊相关系数公式中的一个一样):
注:以上所说的Ri和Si是将R和S从大到小(或从小到大)排列后的顺序。
如何理解位次?
答:若存在di=0的情况,则说明存在相同位次,反之,则位次都不相同。
适用范围:
只要两个变量的观测值是成对的等级评定资料(即R和S长度相同),或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。
spearman和pearson使用选择:
1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。
三、肯德尔等级相关系数
肯德尔等级相关系数(kendall correlation coefficient),也称kendall秩相关系数。
定义:
n个同类的统计对象按特定属性排序,其他属性通常是乱序的。同序对(concordant pairs)和异序对(discordant pairs)之差与总对数(n*(n-1)/2)的比值定义为Kendall(肯德尔)系数。
计算公式:
R=(P-(n*(n-1)/2-P))/(n*(n-1)/2)=(4P/(n*(n-1)))-1
由上图可知,A语文成绩最高,但数学排名为 3,比数学排名为 4和5 的成绩高,贡献5个同序对,即AB和AE。同理,我们发现B、C、D、E分别贡献1、2、1、0个同序对。因此可知:
同序对数:P = 2 + 1 + 2 + 1 + 0 = 6。
异序对数:Q = 10 - 6 = 4 (总对数减去同序对数为异序对数)
因而R=(4 * 6 / (5 * (5 - 1))) -1 = 24 / 20 -1 = 0.2。这一结果显示出强大的排名之间的规律,符合预期。
特性:
(1) 如果两个属性排名是相同的,系数为1 ,两个属性正相关。
(2) 如果两个属性排名完全相反,系数为-1 ,两个属性负相关。
(3) 如果排名是完全独立的,系数为0。文章来源:https://www.toymoban.com/news/detail-520060.html
适用范围:
只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,都可以用肯德尔等级相关系数来进行研究。文章来源地址https://www.toymoban.com/news/detail-520060.html
到了这里,关于三大统计学相关系数(pearson、kendall、spearman)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!