数学建模:相关性分析学习——皮尔逊(pearson)相关系数与斯皮尔曼(spearman)相关系数

这篇具有很好参考价值的文章主要介绍了数学建模:相关性分析学习——皮尔逊(pearson)相关系数与斯皮尔曼(spearman)相关系数。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

前言

一、基本概念及二者适用范围比较

1、什么是相关性分析

2、什么是相关系数

3、适用范围比较

二、相关系数

1.皮尔逊相关系数(Pearson correlation)

1、线性检验

2、正态检验

3、求相关系数

2、斯皮尔曼相关系数(Spearman correlation)

1、秩相关系数

2、使用条件

3、求相关系数

3、结果对比

总结


前言

为参加数学建模做准备!从相关性分析学起!


一、基本概念及二者适用范围比较

1、什么是相关性分析

        相关分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个因素的的相关密切程度,相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。

2、什么是相关系数

        相关系数是反映两个变量之间线性相关程度的指标。

  •  皮尔逊相关系数(Pearson correlation): 用于衡量两个连续性随机变量间的相关系数
  •  斯皮尔曼相关系数(Spearman correlation) :秩相关系数,根据原始数据的等级排序进行求解,也称为等级变量之间的皮尔逊相关系数   

        (还有一种Kendall相关系数暂不作了解)

        以上两种系数是两个变量之间变化趋势的方向以及程度,取值范围为[-1, 1]。当接近1时,表示两者具有强烈的正相关性;当接近-1时,表示有强烈的的负相关性;而值接近0,则表示相关性很低。 

3、适用范围比较

斯皮尔曼相关系数和皮尔逊相关系数选择:
        1.连续数据正态分布线性关系,使用pearson相关系数最为恰当,用spearman相关系数也可以, 就是效率没有pearson相关系数高。
        2.上述三个条件均满足才能使用pearson相关系数,否则就用spearman相关系数。
        3.定序数据之间也只用spearman相关系数,不能用pearson相关系数。

注:(1)定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量形成的,表现为类别,可以进行排序,属于品质数据。
例如,对成绩进行排名后,对排名进行数学运算就没有意义了。定序数据最重要的意义代表了一组数据中的逻辑顺序。
       (2)斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系(例如线性函数、指数函数、对数函数等)就能够使用。
 

二、相关系数

1.皮尔逊相关系数(Pearson correlation)

当两个变量都是正态连续变量,且两者之间呈线性关系时,则可以用Pearson来计算相关系数。取值范围[-1,1]。计算公式如下:

斯皮尔曼相关性分析,python,pandas,数据分析

从形式上看即为概率论中所学的相关系数。

变量相关强度

相关程度 极强相关 强相关 中等程度相关 弱相关 极弱相关或无相关
相关系数绝对值 0.8——1 0.6——0.8 0.4——0.6 0.2——0.4 0——0.2

1、线性检验

一般使用散点图进行线性检验:

import numpy as np
from matplotlib import pyplot as plt


def linear_test():

    #为显示线性关系手动输入的数据
    x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
    y = np.array([1, 1, 3, 4, 3, 6, 5, 7, 9, 8, 9])

    fig = plt.figure()
    ax1 = fig.add_subplot(1, 1, 1)
    ax1.set_title('Linear Test')
    ax1.set_xlabel('X')
    ax1.set_ylabel('Y')
    ax1.scatter(x, y, c='k', marker='.')
    plt.savefig('linear_test.png')


linear_test()


斯皮尔曼相关性分析,python,pandas,数据分析

2、正态检验

这里运用到scipy模块的kstest方法,具体代码如下:

def normal_test():

    data = np.array([1, 2, 5, 4, 4, 6, 7, 3, 9, 5, 4, 7, 1, 2, 9])
    u = data.mean()
    std = data.std()
    result = stats.kstest(data, 'norm', (u, std))
    print(result)

结果:KstestResult(statistic=0.12726344134326134, pvalue=0.9427504251048978)

结果返回两个值:statistic → D值,pvalue → P值

H0:样本符合
H1:样本不符合
p值>0.05则接受H0,该数据为正态分布。

3、求相关系数

若以上验证均成功则采取皮尔逊相关系数进行相关性分析:

import pandas as pd


# 读取数据
df = pd.read_excel('spearman_data.xlsx')
df = pd.DataFrame(df)
# print(df)

# 生成相关性矩阵
rho = df.corr(method='pearson')
print(rho)

对生成的相关系数矩阵进行可视化操作(生成热力图):

def heatmapplot():

    plt.rcParams['font.family'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    sns.heatmap(rho, annot=True)
    plt.title('Heat Map', fontsize=18)
    plt.savefig('heatmap1.png', dpi=300)

斯皮尔曼相关性分析,python,pandas,数据分析

2、斯皮尔曼相关系数(Spearman correlation)

1、秩相关系数

        秩相关系数(Coefficient of Rank Correlation),又称等级相关系数,反映的是两个随机变量的变化趋势方向和强度之间的关联,是将两个随机变量的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。它是反映等级相关程度的统计分析指标,常用的等级相关分析方法有Spearman相关系数和Kendall秩相关系数等。主要用于数据分析。斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。

2、使用条件

  • 数据为非线性或非正态
  • 至少有一组数据为等级类型,如排名,位次
  • 数据中有异常值或错误值,斯皮尔曼相关系数对于异常值不太敏感,因为它基于排序位次进行计算,实际数值之间的差异大小对于计算结果没有直接影响

3、求相关系数

较为常用简单的计算公式如下所示:

斯皮尔曼相关性分析,python,pandas,数据分析

  •  表示第i个数据对的位次值之差
  • n 总的观测样本数

使用python求解与上文类似(metho = ‘spearman’)

3、结果对比

两种相关系数的热力图对比:

pearson:

斯皮尔曼相关性分析,python,pandas,数据分析

spearman:

斯皮尔曼相关性分析,python,pandas,数据分析

可见,对于同组数据,在满足了正态和线性检验的条件下,Pearson所得结果相对于Spearman会更加的精确和严格。


总结

第一次写学习笔记若有错误希望大佬赐教!

球球各位点个赞

先行发布,之后会在补充显著性检验等内容。文章来源地址https://www.toymoban.com/news/detail-798276.html

到了这里,关于数学建模:相关性分析学习——皮尔逊(pearson)相关系数与斯皮尔曼(spearman)相关系数的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数学建模预测模型MATLAB代码大合集及皮尔逊相关性分析(无需调试、开源)

           选取2000-2017年x省碳排放量为训练集,2018-2022x省碳排放量作为测试集,以此来预测2023-2026年x省碳排放量。设置训练次数为 1000次,学习速率为0.2;对该训练集BP神经网络模型拟合后模型的训练样本、验 证样本和测试样本的均方误差分别是0.000012、0.0023、0.0042,整体的误

    2024年02月08日
    浏览(34)
  • 数学建模学习笔记(20)典型相关分析

    典型相关分析概述 :研究两组变量(每组变量都可能有多个指标)之间的相关关系的一种多元统计方法,能够揭示两组变量之间的内在联系。 典型相关分析的思想 :把多个变量和多个变量之间的相关化为两个具有代表性的变量之间的相关性。对于一组变量来说,最简单的代

    2024年02月10日
    浏览(38)
  • 【hive】相关性函数进行相关性分析

    在Hive SQL中,使用类似的相关性函数进行相关性分析。常见的相关性函数包括CORR、COVAR_POP、COVAR_SAMP、STDDEV_POP、STDDEV_SAMP等。 举个例子,假设有一个表格sales,其中包含两列数据 sales_amt 和 advertising_amt ,我们可以使用CORR函数来计算这两列数据的相关性: 这将返回一个值,表示

    2024年02月21日
    浏览(39)
  • 表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

    使用场景 1.已经确定研究的基因,但是想探索他潜在的功能,可以通过跟这个基因表达最相关的基因来反推他的功能,这种方法在英语中称为 guilt of association,协同犯罪 。 2.我们的注释方法依赖于TCGA大样本,既然他可以注释基因,那么任何跟肿瘤相关的基因都可以被注释,

    2024年02月01日
    浏览(56)
  • 常见的相关性分析

    方差分析和相关性分析都是描述特征之间的关系的统计方法,但它们关注的方面略有不同。 方差分析主要用于研究一个或多个自变量对因变量的影响,即研究因素之间的差异性。通过比较不同组之间的方差,可以确定哪些因素对结果变量的影响比较重要,以及不同组之间的显

    2024年02月11日
    浏览(36)
  • 相关性分析和热图绘制

    一、什么是相关性分析? 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。在组学测序(如转录组)中需设置多个生物学重复,而对多个生物学重复

    2024年02月10日
    浏览(39)
  • 机器学习案例:运营商客户流失的数据分析 #数据去重#数据分组整合#缺失值处理#相关性分析#样本平衡#决策树、随机森林、逻辑回归

    前提: 随着业务快速发展、电信市场的竞争愈演愈烈。如何最大程度地挽留在网用户、吸取新客户,是电信企业最 关注的问题之一。 客户流失 会给企业带来一系列损失,故在发展用户每月增加的同时,如何挽留和争取更多 的用户,也是一项非常重要的工作。 能否利用大数

    2024年02月08日
    浏览(51)
  • Pearson相关性分析& plot绘图(相关性系数柱状图、绘制非空值数量柱状图)

    Pearson相关性分析是一种用于检测两个变量之间线性关系强度的统计方法,其结果介于-1和1之间。一个相关系数为1表示完全正相关,-1表示完全负相关,0则表示没有线性关系。 Pearson相关性分析假设数据来自正态分布,并且对异常值敏感。

    2024年02月09日
    浏览(33)
  • Python进行数据相关性分析实战

    平时在做数据分析的时候,会要对特征进行相关性分析,分析某些特征之间是否存在相关性。本文将通过一个实例来对数据进行相关性分析与展示。 本次分析的是企业合作研发模式效果分析,企业的合作研发大致分为 企企合作、企学合作、企研合作、企学研合作,也就是企

    2024年02月10日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包