Pearson相关系数和Spearman相关系数的区别

这篇具有很好参考价值的文章主要介绍了Pearson相关系数和Spearman相关系数的区别。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


  参考资料前两个博客讲解的非常详细,因本人想要自己梳理下,才有此文,请直接跳转即可。

1、协方差、相关系数

(1)简单来说
  协方差:变量具有 同增、同减 的趋势。趋势越接近,则相关性越大,反之越小。
  相关系数:协方差的标准化,把数值控制在[-1,1]的区间表示。方便比较多组变量的相关性强弱。

(2)作用上来说
  协方差描述两个变量之间相关的 方向,相关系数解释相关的 强度

(3)复杂点说:协方差是随机变量离差之积,与随机变量分布函数乘积的积分,或者是就是离差乘积的期望。

(4)相关系数范围
  相关系数是用以反映变量之间的相关关系程度的统计指标。其取值范围是[-1,1],当取值为0时表示不相关,取值为[-1,0)表示负相关,取值为(0,-1],表示负相关。

方差与协方差的区别:
Pearson相关系数和Spearman相关系数的区别

参考视频:十分钟理解协方差和相关系数、如何通俗地解释协方差

 

2、Pearson相关系数

  皮尔森相关系数评估两个连续变量之间的 线性关系,是用来衡量两个数据集的线性相关程度。
  数据集要 符合正态分布、无异常值、连续变量 等特定。
Pearson相关系数和Spearman相关系数的区别
 

3、Spearman相关系数

3.1 定义

  斯皮尔曼相关系数评估两个连续变量之间的单调关系。在单调关系中,变量趋于一起变化,但不一定以恒定速率变化。
  它也被称为等级相关或者秩相关(即rank)。

3.2 什么时候用

  当 (1)分布严重非正态;(2)变量非连续;(3)异常值影响大, 的时候,要舍弃Pearson相关系数

4、两者的区别点

4.1 线性相关与单调相关

  Pearson相关系数是用来衡量两个数据集(变量)的线性相关程度。而Spearman相关系数不关心两个数据集是否线性相关,而是单调相关。
  在单调关系中,变量倾向于沿着相同的相对方向移动,但不一定以恒定的速率移动。在线性关系中,变量沿着相同的方向以恒定的速率移动

4.2 前提假设不同

  Pearson相关假设数据集在同一条直线上,而Spearman只要求单调递增或者递减,所以Pearson的统计效力比Spearman要高。
  更重要的是,要根据实际情况选择正确的假设。

  比如,某个实验做了两次技术或者生物学重复,那有理由假设这两次重复线性相关。而如果是一个基因和另一个受到调控的基因的表达水平,或者某个基因顺式作用元件的染色质开放程度,和这个基因表达水平之间的关系就可能只需要假设单调相关。

4.3 变量正态分布与否

  Pearson相关系数要求数据集是连续型变量,并且符合正态分布,而Spearman相关系数没有这个要求;
  Pearson相关系数在出现奇异值,或者长尾分布的时候稳定性差,不太可靠,而Spearman对于数据错误和极端值的反应不敏感。
 

5、实例展示

Pearson相关系数和Spearman相关系数的区别
(1)上面两张图
  如果对数据进行线性变换(y = ax + b; a ≠ 0),两者相关系数的绝对值都不会发生变化(要考虑下正负);
  上面两个图既是单调关系,也是线性关系

(2)中间两张图
  如果对数据进行单调但不线性的变换(比如最常见的log scale),Spearman相关系数的绝对值也不会发生变化。
  两张图显示两个变量同时上升,但不以相同的速率上升。此关系是单调的,但不是线性的

(3)下面两张图
  左下图显示了当关系是随机的或不存在时,则两个相关系数几乎为零。
  右下图显示了非常强的关系。Pearson系数和Spearman系数均约为0。

 

6、参考资料

1、Pearson相关系数和Spearman相关系数的区别
2、救救孩子!Spearman、Pearson相关系数傻傻分不清?
3、统计学与质量051 - 相关性 - 自变量与因变量 协方差(Covariance)
4、统计学与质量052 - 皮尔逊 (Pearson) 相关系数 & 斯皮尔曼 (Spearman)相关系数文章来源地址https://www.toymoban.com/news/detail-412996.html

到了这里,关于Pearson相关系数和Spearman相关系数的区别的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 76、基于STM32单片机车牌识别摄像头图像处理扫描设计(程序+原理图+PCB源文件+相关资料+参考PPT+元器件清单等)

    单片机主芯片选择方案 方案一:AT89C51是美国ATMEL公司生产的低电压,高性能CMOS型8位单片机,器件采用ATMEL公司的高密度、非易失性存储技术生产,兼容标准MCS-51指令系统,片内置通用8位中央处理器(CPU)和Flash存储单元,功能强大。其片内的4K程序存储器是FLASH工艺的,这种单

    2024年02月12日
    浏览(39)
  • Flutter参考资料

    Flutter 官网 : https://flutter.dev/ Flutter 插件下载地址 : https://pub.dev/packages Flutter 开发文档 : https://flutter.cn/docs ( 强烈推荐 ) 官方 GitHub 地址 : https://github.com/flutter Flutter 中文社区 : https://flutter.cn/ Flutter 实用教程 : https://flutter.cn/docs/cookbook Flutter CodeLab : https://codelabs.flutter-io.cn/ Dart 中

    2024年02月13日
    浏览(30)
  • 网络参考资料汇总(1)

    将这段时间参考的各路大佬的资料加以汇总分类: (1)FFmpeg: 基于FFmpeg进行rtsp推流及拉流(详细教程) Linux 编译安装 FFmpeg 步骤(带ffplay) Jetson 环境安装(三):jetson nano配置ffmpeg和nginx(亲测) Linux编译FFmpeg libx264 libx265 libfdk-aac libmp3lame libvpx libopus等 ffmpeg推流时报错 Unknown encod

    2024年02月07日
    浏览(32)
  • webgis开发参考资料

    http://zhihu.geoscene.cn/article/1038 2、arcgis server 紧促(bundle)格式缓存文件的读取 https://blog.csdn.net/abc553226713/article/details/8668839 3、ArcGIS 10.0紧凑型切片读写方法 https://www.cnblogs.com/yuantf/p/3320876.html 4、发布地图服务时导入已有的tpk切片包作为缓存 https://blog.csdn.net/hellfire2007/article/de

    2024年02月08日
    浏览(37)
  • STM32重要参考资料

    stm32f103c8t6 (有时候不小心短接VCC和GND,芯片会锁住,可以BOOT0拉高试试(用跳线帽接)) 可用于PCB设计 1.RCC开启时钟错误,例如    RCC_ APB2 PeriphClockCmd(RCC_APB2Periph_GPIOB, ENABLE); 写成    RCC_ APB1 PeriphClockCmd(RCC_APB2Periph_GPIOB, ENABLE); 这个函数是有说明的,可以看看vscode显示的函

    2024年04月11日
    浏览(30)
  • 资料与参考

    资料: 本书(《Python神经网络编程》)的资料是使用Jupyter notebooks写的,本人并不擅长使用Jupyter,所以用传统py重写了一遍,并附加了新功能(即多数字识别),现将Jupyter版和py版连带本书pdf一并上传至gitee,地址:python-neuralNetwork-coding: 《Python神经网络编程》pdf和随书源码,

    2024年02月11日
    浏览(41)
  • Fast Planner——代码解读参考资料整理

    参数解读 主要函数解读 概率栅格地图,概率更新过程的公式推导过程 全概率公式、贝叶斯公式 一. kinodynamic a_star(前端hybrid A_star动力学路径搜索) 1.1启发函数的计算 1.2 Compute shot Traj 1.3 节点扩张 1.4 节点剪枝 1.5 返回kinopath与 getsamples 二、B样条曲线设置 2.1 均匀B样条设置

    2024年02月05日
    浏览(76)
  • 数据挖掘01-相关性分析及可视化【Pearson, Spearman, Kendall】

    ​ 有这么一句话在业界广泛流传: 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 ​ 因此,数据挖掘在人工智能和大数据的时代下显得尤为重要。本人在工作中也会经常为数据挖掘方面的任务头疼,所以想将所见、所学、所整理的数据挖掘学习资

    2024年02月02日
    浏览(30)
  • [渝粤教育] 中国人民警察大学 工业企业防火 参考 资料

    教育 -工业企业防火-章节资料考试资料-中国人民警察大学【】 随堂测验 1、【判断题】工业企业的火灾特点是涉及行业种类繁多,涉及到社会生活的方方面面。 A、正确 B、错误 参考资料【 】 2、【判断题】工业企业的火灾特点是物资集中,存在各种形式的点火源,发生火灾

    2024年02月02日
    浏览(49)
  • [渝粤教育] 辽宁对外经贸学院 数字新技术 参考 资料

    教育 -数字新技术-4-章节资料考试资料-辽宁对外经贸学院【】 第一单元测验 1、【单选题】1. 云计算是对(D)技术的发展与运用 云计算是对( )技术的发展与运用。 A、并行计算 B、网格计算 C、分布式计算 D、三个选项都是 参考资料【 】 2、【单选题】从研究现状上看,下

    2023年04月25日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包