常见的相关性分析

这篇具有很好参考价值的文章主要介绍了常见的相关性分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

方差分析和相关性分析都是描述特征之间的关系的统计方法,但它们关注的方面略有不同。

方差分析主要用于研究一个或多个自变量对因变量的影响,即研究因素之间的差异性。通过比较不同组之间的方差,可以确定哪些因素对结果变量的影响比较重要,以及不同组之间的显著性差异。因此,方差分析可以用于描述特征的重要性程度。
相关性分析主要用于研究两个或多个变量之间的关系,即研究特征之间的相关性。通过计算相关系数,可以确定不同变量之间的相关程度,以及变量之间的正相关或负相关关系。因此,相关性分析可以用于描述特征间的关系。

Pearson相关系数分析:用于评估两个连续变量之间的线性关系。
Spearman秩相关系数分析:用于评估两个有序变量之间的关系,不要求变量之间具有线性关系。
Kendall秩相关系数分析:用于评估两个有序变量之间的关系,也不要求变量之间具有线性关系。
判定系数(R²)分析:用于评估一个变量是否能够解释另一个变量的变异。

Pearson相关系数分析

Pearson相关系数是用于衡量两个连续变量之间线性相关程度的方法。它的取值范围在-1到1之间,其中0表示没有相关关系,1表示完全正相关,-1表示完全负相关。

计算Pearson相关系数的公式为:

r = Σ((x - x̄)(y - ȳ)) / [(Σ(x - x̄)²Σ(y - ȳ)²) ^ 0.5]

其中,x和y是两个变量的观测值,x̄和ȳ是它们的均值。r的取值范围在-1到1之间,r值越接近1或-1,代表两个变量之间的相关性越强;r值越接近0,代表两个变量之间没有相关性。

Spearman秩相关系数分析

Spearman秩相关系数是用于评估两个有序变量之间的关系的方法。它的取值范围在-1到1之间,其中0表示没有相关关系,1表示完全正相关,-1表示完全负相关。

计算Spearman秩相关系数的公式为:

r = 1 - (6Σd² / n(n² - 1))

其中,d为两个变量的秩次差,n为样本个数。Spearman秩相关系数与Pearson相关系数类似,但更适用于非正态分布的数据或者两个变量之间不是线性关系的情况。

Kendall秩相关系数分析

Kendall秩相关系数也是用于评估两个有序变量之间的关系的方法。它的取值范围也在-1到1之间,其中0表示没有相关关系,1表示完全正相关,-1表示完全负相关。

计算Kendall秩相关系数的公式:
r = (P - Q) / [(n(n-1))/2]

其中,P是两个变量的排列一致的对数,Q是两个变量的排列不一致的对数,n是样本个数。Kendall秩相关系数与Spearman秩相关系数类似,但更适用于小样本数据和存在相同秩次的情况。

在计算P和Q时,首先需要将变量的观测值从小到大排列,并为每个观测值分配一个秩次。然后,对于任意两个观测值,如果它们在两个变量中的秩次一致,则为一致对数P加1;如果它们在两个变量中的秩次不一致,则为不一致对数Q加1。最后,将P和Q代入公式中即可计算出Kendall秩相关系数。文章来源地址https://www.toymoban.com/news/detail-675782.html

数值型变量例子

import pandas as pd
from scipy.stats import pearsonr, spearmanr, kendalltau

# 构造样本数据
df = pd.DataFrame({
    'x': [1, 2, 3, 4, 5],
    'y': [3, 5, 7, 9, 11]
})

# 计算Pearson相关系数和p值
pearson_corr, pearson_pvalue = pearsonr(df['x'], df['y'])
print('Pearson相关系数:', pearson_corr)
print('Pearson p值:', pearson_pvalue)

# 计算Spearman秩相关系数和p值
spearman_corr, spearman_pvalue = spearmanr(df['x'], df['y'])
print('Spearman秩相关系数:', spearman_corr)
print('Spearman p值:', spearman_pvalue)

# 计算Kendall秩相关系数和p值
kendall_corr, kendall_pvalue = kendalltau(df['x'], df['y'])
print('Kendall秩相关系数:', kendall_corr)
print('Kendall p值:', kendall_pvalue)
'''
在上面的例子中,我们使用了pandas包创建了一个包含两个变量x和y的DataFrame对象。
然后,分别使用scipy.stats包中的pearsonr()、spearmanr()和kendalltau()函数计算了Pearson、Spearman和Kendall秩相关系数以及p值。
最后,将结果打印出来。

需要注意的是,这些函数计算相关系数时,会自动排除包含缺失值的样本。如果数据中包含缺失值,需要先进行缺失值处理。
'''

文本型变量例子

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.stats import pearsonr

# 构造样本数据
text_list = [
    'I love Python',
    'Python is the best programming language',
    'Java is another programming language',
    'I dislike Java'
]
df = pd.DataFrame({'text': text_list})

# 使用TF-IDF向量化文本
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(df['text'])

# 计算Pearson相关系数和p值
corr, pvalue = pearsonr(tfidf[0].toarray()[0], tfidf[1].toarray()[0])
print('Pearson相关系数:', corr)
print('p值:', pvalue)
'''
在上面的例子中,我们使用sklearn库中的TfidfVectorizer类将文本向量化为TF-IDF向量,
然后使用scipy库中的pearsonr()函数计算了第一篇文章和第二篇文章之间的Pearson相关系数和p值。
需要注意的是,这里只计算了两篇文章之间的相关性,如果需要计算多篇文章之间的相关性,可以使用循环或者矩阵计算的方法。
'''

到了这里,关于常见的相关性分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习案例:运营商客户流失的数据分析 #数据去重#数据分组整合#缺失值处理#相关性分析#样本平衡#决策树、随机森林、逻辑回归

    前提: 随着业务快速发展、电信市场的竞争愈演愈烈。如何最大程度地挽留在网用户、吸取新客户,是电信企业最 关注的问题之一。 客户流失 会给企业带来一系列损失,故在发展用户每月增加的同时,如何挽留和争取更多 的用户,也是一项非常重要的工作。 能否利用大数

    2024年02月08日
    浏览(31)
  • 数据的特征分析及房价增幅与M2增幅的相关性案例(axis=1为横向,axis=0为纵向)

    .sort_index()方法在指定轴上根据 索引 进行排序,默认升序 .sort_index(axis=0, ascending=True) axis=0 表示的是纵轴 ascending表示是否为递增排序,默认为true  axis为1  这个by是根据你哪个轴的索引进行排序   NaN统一放到排序末尾 我在学习时经常用到axis=0或1,那么axis=0或者1到底是什么

    2023年04月08日
    浏览(25)
  • 常见的相关性分析

    方差分析和相关性分析都是描述特征之间的关系的统计方法,但它们关注的方面略有不同。 方差分析主要用于研究一个或多个自变量对因变量的影响,即研究因素之间的差异性。通过比较不同组之间的方差,可以确定哪些因素对结果变量的影响比较重要,以及不同组之间的显

    2024年02月11日
    浏览(22)
  • 【hive】相关性函数进行相关性分析

    在Hive SQL中,使用类似的相关性函数进行相关性分析。常见的相关性函数包括CORR、COVAR_POP、COVAR_SAMP、STDDEV_POP、STDDEV_SAMP等。 举个例子,假设有一个表格sales,其中包含两列数据 sales_amt 和 advertising_amt ,我们可以使用CORR函数来计算这两列数据的相关性: 这将返回一个值,表示

    2024年02月21日
    浏览(23)
  • 表达矩阵任意两个基因相关性分析 批量相关性分析 tcga geo 矩阵中相关性强的基因对 基因相关性 ecm matrisome与gpx3

    使用场景 1.已经确定研究的基因,但是想探索他潜在的功能,可以通过跟这个基因表达最相关的基因来反推他的功能,这种方法在英语中称为 guilt of association,协同犯罪 。 2.我们的注释方法依赖于TCGA大样本,既然他可以注释基因,那么任何跟肿瘤相关的基因都可以被注释,

    2024年02月01日
    浏览(33)
  • 数学建模:相关性分析

    🔆 文章首发于我的个人博客:欢迎大佬们来逛逛 Pearson Spearman Kendall tua-b t检验(t-test)临界值表-t检验表.xls T检验代码: myTtest005.m 相关性分析及SPSS软件操作.pdf

    2024年02月09日
    浏览(21)
  • 相关性分析和热图绘制

    一、什么是相关性分析? 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。在组学测序(如转录组)中需设置多个生物学重复,而对多个生物学重复

    2024年02月10日
    浏览(24)
  • Pearson相关性分析& plot绘图(相关性系数柱状图、绘制非空值数量柱状图)

    Pearson相关性分析是一种用于检测两个变量之间线性关系强度的统计方法,其结果介于-1和1之间。一个相关系数为1表示完全正相关,-1表示完全负相关,0则表示没有线性关系。 Pearson相关性分析假设数据来自正态分布,并且对异常值敏感。

    2024年02月09日
    浏览(20)
  • 数学建模-相关性分析(Matlab)

     注意:代码文件仅供参考,一定不要直接用于自己的数模论文中 国赛对于论文的查重要求非常严格,代码雷同也算作抄袭 如何修改代码避免查重的方法:https://www.bilibili.com/video/av59423231   //清风数学建模 连续数据、正态分布、线性关系三者同时满足优先用。 一般处理这种

    2024年02月07日
    浏览(26)
  • Pearson correlation皮尔逊相关性分析

    在参数检验的相关性分析方法主要是皮尔逊相关(Pearson correlation)。既然是参数检验方法,肯定是有一些前提条件。皮尔逊相关的前提是必须满足以下几个条件: 变量是连续变量; 比较的两个变量必须来源于同一个总体; 没有异常值; 两个变量都符合正态分布。 正态分布

    2024年02月15日
    浏览(23)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包