三大统计学相关系数(pearson、kendall、spearman)

这篇具有很好参考价值的文章主要介绍了三大统计学相关系数(pearson、kendall、spearman)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、皮尔逊相关系数

前边文章讲了很多了,这里不详细讲了,想了解的可以看这篇。
相似度计算(2)——皮尔逊相关系数

适用范围:
当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
  (1) 两个变量之间是线性关系,都是连续数据。
  (2) 两个变量的总体是正态分布,或接近正态的单峰分布。
  (3) 两个变量的观测值是成对的,每对观测值之间相互独立。

二、斯皮尔曼等级相关系数

  斯皮尔曼等级相关系数(Spearman’s rank correlation coefficient),被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据(做排序),然后再根据公式进行计算。

  当没有位次相同的数据时,计算公式:
spearman和kendall,其他,概率论,线性代数
其中:di 表示第i个数据对的位次值之差(即di=Ri-Si),n表示观测样本总数。

  如果观测样本中存在位次相同的数据,则需要使用如下计算公式(和皮尔逊相关系数公式中的一个一样):
spearman和kendall,其他,概率论,线性代数
注:以上所说的Ri和Si是将R和S从大到小(或从小到大)排列后的顺序。

  如何理解位次?
:若存在di=0的情况,则说明存在相同位次,反之,则位次都不相同。

适用范围:
  只要两个变量的观测值是成对的等级评定资料(即R和S长度相同),或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。

spearman和pearson使用选择:
  1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,就是效率没有pearson相关系数高。
  2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
  3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。

三、肯德尔等级相关系数

  肯德尔等级相关系数(kendall correlation coefficient),也称kendall秩相关系数。

定义:
  n个同类的统计对象按特定属性排序,其他属性通常是乱序的。同序对(concordant pairs)和异序对(discordant pairs)之差与总对数(n*(n-1)/2)的比值定义为Kendall(肯德尔)系数。

计算公式:
  R=(P-(n*(n-1)/2-P))/(n*(n-1)/2)=(4P/(n*(n-1)))-1
spearman和kendall,其他,概率论,线性代数
  由上图可知,A语文成绩最高,但数学排名为 3,比数学排名为 4和5 的成绩高,贡献5个同序对,即AB和AE。同理,我们发现B、C、D、E分别贡献1、2、1、0个同序对。因此可知:
同序对数:P = 2 + 1 + 2 + 1 + 0 = 6。
异序对数:Q = 10 - 6 = 4 (总对数减去同序对数为异序对数)
因而R=(4 * 6 / (5 * (5 - 1))) -1 = 24 / 20 -1 = 0.2。这一结果显示出强大的排名之间的规律,符合预期。

特性:
  (1) 如果两个属性排名是相同的,系数为1 ,两个属性正相关。
  (2) 如果两个属性排名完全相反,系数为-1 ,两个属性负相关。
  (3) 如果排名是完全独立的,系数为0。

适用范围:
  只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,都可以用肯德尔等级相关系数来进行研究。文章来源地址https://www.toymoban.com/news/detail-520060.html

到了这里,关于三大统计学相关系数(pearson、kendall、spearman)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【应用统计学】方差分析

    【例7-1】 三台设备平均灌装时间分别是15.82秒、16.67秒和14.97秒。试用样本数据检验这3台机器灌装过程的时间是否存在显著不同,以便对设备的购买做出决策。( α=0.05 )  如果检验结果 接受原假设 ,则样本数据表明三台设备的平均灌装时间没有显著差异,选择任何一家提供商

    2023年04月16日
    浏览(42)
  • 统计学 一元线性回归

    回归(Regression) :假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,利用该模型根据给定的自变量来预测因变量 线性回归 :因变量和自变量之间是线性关系 非线性回归 :因变量和自变量之间是非线性关系 变量间的关系 :往往分为 函数关系

    2024年02月06日
    浏览(40)
  • 统计学期末复习整理

    统计学:描述统计学和推断统计学。计量尺度:定类尺度、定序尺度、定距尺度、定比尺度。 描述统计中的测度: 1.数据分布的集中趋势 2.数据分布的离散程度 3.数据分布的形状。 离散系数 也称为标准差系数,通常是用一组数据的标准差与其平均数之比计算 C . V . = s x ‾

    2024年02月07日
    浏览(43)
  • SCAU 统计学 实验5

    8.14 总体平均值(μ):7.0 cm 总体方差(σ²):0.03 cm² 样本平均值(x̄):6.97 cm 样本方差(s²):0.0375 cm² 样本大小(n):80 在这个问题中,我们已经知道总体方差(σ²),所以应该使用 z 检验。 将检验以下零假设(H₀): H₀: μ = 7.0 cm 与备择假设(H₁): H₁: μ ≠

    2024年02月01日
    浏览(38)
  • 统计学-R语言-3

    本篇文章是介绍对数据的部分图形可视化的图型展现。 需要注意的是,给直方图拟合正态分布曲线并非总是适用,有时甚至是荒谬的,容易产生误导。合理的做法是为直方图拟合一条核密度估计曲线,它是数据实际分布的一种近似描述。 下面通过一个实际例子说明给直方图

    2024年01月16日
    浏览(40)
  • 统计学-R语言-1

    统计学(statistics)是“数据的科学” 1.是用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。 2.统计学进行推断的基础是数据(data)。数据不仅仅限于数字,也可能是图表、视频、音频或者文字。 3.收集到数据之后,利用一些方法来整理和分析数据,最后得到结

    2024年02月03日
    浏览(42)
  • 数据科学、统计学、商业分析

    数据科学、统计学、商业分析是在各方面有着不同的侧重和方向的领域。  1.专业技能 数据科学(Data Science):数据科学涉及从大量数据中提取有价值的信息、模式和洞察力的领域。它使用多种技术和领域知识,如统计学、机器学习、数据库管理、数据可视化等,进行数据清

    2024年02月15日
    浏览(48)
  • 统计学-R语言-6.2

    本篇将继续介绍上篇所剩下的内容。 设两个总体的均值分别为1和2,从两个总体中分别抽取样本量为n1和n2的两个随机样本,其样本均值分别为 和 。估计两个总体均值之差(u1-u2)的点估计量显然是两个样本的均值之差( )。 两个总体均值的置信区间是由两个样本均值之

    2024年01月18日
    浏览(39)
  • 统计学-R语言-6.3

    本篇文章是最后一个介绍参数估计的章节。 研究一个总体时,推断总体方差 使用的统计量为样本方差 。研究两个总体时,所关注的参数是两个总体的方差比( ),用于推断的统计量则是两个样本的方差比( )。 估计一个总体的方差或标准差假定条件: 假设总体服从正态分

    2024年01月20日
    浏览(39)
  • 统计学-R语言-2.1

    上篇文章介绍了统计学-R语言的介绍,本篇文章介绍如何安装R软件。 可以登录官网,https://www.r-project.org/,点击此处跳转。 点进去下滑找到China,之后找任意一个链接地址进行下载即可。 我点的是第二个,进入后在红框中选择自己对应得版本进行下载。 第一次安装点击红框处

    2024年02月02日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包