非参数检验-Wilcoxon,Wilcoxon-Mann-Whitney符号秩检验以及Pearson,Spearman秩,Kendall τ相关检验(附带实例-R实现)

这篇具有很好参考价值的文章主要介绍了非参数检验-Wilcoxon,Wilcoxon-Mann-Whitney符号秩检验以及Pearson,Spearman秩,Kendall τ相关检验(附带实例-R实现)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 单一样本检验

1.1 符号检验

   符号检验是非参数统计中最古老的检验方法之一,这种检验被称为符号检验的一个理由是它所关心的信息只与两类观测值有关,如果用符号“+”和“-”区分,符号检验就是通过符号“+”和“-”的个数进行统计推断。符号检验的推断过程(以双边检验为例):

符号检验,大数据,r语言,概率论

1.2 Wilcoxon符号秩检验

从1.1符号检验的定义和推断过程可以看出,它只利用了样本差异方向上的信息,并没有考虑差别的大小,即就是在符号检验中,每个样本点的正负号只是代表了该点在中心位置的那一边,但没有表明该点距离中心位置的远近。因此,就有了Wilcoxon符号秩检验,它弥补了符号检验的不足也充分得应用了样本信息。使用Wilcoxon符号秩检验的前提是假设总体分布具有对称性。

2 两独立样本检验

Wilcoxon-Mann-Whitney秩和检验

假定两总体分布有类似形状,不假定对称,样本

符号检验,大数据,r语言,概率论

符号检验,大数据,r语言,概率论

3.多组数据位置推断

Kruskal-Wallis检验

Kruskal- Wallis检验是一个将两样本W-M-W检验推广到三组或更多检验的方法,如果数据取自完全随机设计,先把多个样本汇合起来求秩,再按样本组求秩和,考虑到各个处理的观测值可能不同,可以比较各个处理之间的平均秩差,从而达到比较的目的。

对检验问题,完全随机设计的的数据如下表所示

符号检验,大数据,r语言,概率论

 符号检验,大数据,r语言,概率论

4 相关性检验

4.1 Pearson相关系数

符号检验,大数据,r语言,概率论

 4.2 Spearman秩相关检验

符号检验,大数据,r语言,概率论

 4.3 Kendall τ相关检验

符号检验,大数据,r语言,概率论

 5 实例

针对美国面板调查数据中的年轻男子组, 研究了工资与受教育年限的关系, 该数据集中包括以下变量:lw(工资对数),s(受教育年限),age (年龄),tenure (在现单位的工作年数),iq (智商),med(母亲的受教育年限),rns (美国南方虚拟变量,住在南方=1),kww (在"knowledge of the World of Work"测试中的成绩) , mrt(婚姻虚拟变量,已婚=1),year(有数据的最早年份,1966 -1973年中的某年),smsa (大城市虚拟变量,住在大城市=1)。

5.1 Wilcoxon符号秩检验与符号检验

在上述数据集中 运用Wilcoxon符号秩检验和符号检验两种方法检验 iq(智商)和 age(年龄)两个连续变量的中位数是否显著,并将两种方法的结果进行比较,分析在解决同样位置参数检验问题时各自的特点。

解:首先,先作出两组数据的直方图以及密度曲线,分别如图一和图二所示:

符号检验,大数据,r语言,概率论

 从图一的直方图中看出变量iq 的数据分布大致是对称分布的,但在图二中,没有明显的迹象表明变量age 的数据分布大致是对称分布的:

符号检验,大数据,r语言,概率论

其次,由数据集计算可以得出 中位数 为104, 中位数 为22,最后进行双侧检验:检验所得样本中位数是否是总体的中心位置 。假设检验:

符号检验,大数据,r语言,概率论

 R程序在附录中,汇总结果如下表所示:

符号检验,大数据,r语言,概率论

结果分析:在显著水平0.05下,可以看出

(1) 变量iq符号检验p值为0.5783,Wilcoxon符号秩检验p值为0.8672,两者都大于0.05,因此,接受原假设,认为变量iq的中位数104在两个检验中都不显著;

(2) 变量age符号检验p值为0.01844,Wilcoxon符号秩检验p值为0.0288,两者都小于0.05,因此,拒绝原假设,说明变量age的中位数22在两个检验中都显著。

在(1)中虽然两者都接受了原假设,但是Wilcoxon符号秩检验的p值大于符号检验的p值,这就表明了在对称性的假定下,Wilcoxon符号秩检验将样本的信息量利用的更充分一些。在(2)中虽然两者都拒绝了原假设,但是符号检验的p值小于Wilcoxon符号秩检验的p值,这就表明了当总体分布对称性不成立时,符号检验的结果更可靠

5.2两独立样本检验

在数据集中 smsa(大城市虚拟变量,住在大城市=1)是分类变量,用Wilcoxon-Mann-Whitney秩和检验可以检验在大城市的工资与不在大城市的工资是否有显著差异。

解:(1)假设:H0: 在大城市与不在大城市的工资没有显著差异

                       H1:在大城市与不在大城市的工资有显著差异

(2) 利用R程序在附录中,运行结果如下图所示:

符号检验,大数据,r语言,概率论

 图中 s0为不在大城市的工资数据,s1 为在大城市的工资数据。结果分析:从检验结果可以看出, p值小于0.05,因此,在显著水平0.05下,拒绝原假设 ,即在大城市与不在大城市的工资有显著差异。

5.3Kruskal-Wallis检验

运用Kruskal-Wallis检验方法研究不同学历的人的工资是否真的存在差异,即数据集中lw(工资对数)和 s(受教育年限)有多大关系?

(1)假设: H0:工资对数 lw和受教育年限s 之间无差异

                H1 :工资对数lw 和受教育年限 s之间有显著差异

(2)数据处理:原始数据中的变量s (受教育年限)的取值时一些整数:8,12,15,17,18等,但本题关注的是学历,因此将这些整数转化为不同层次的学历。其中小于等于12的整数被赋值为“低学历”,大于等于13且小于16的整数赋值为“中等学历”,大于等于17的整数赋值为“高等学历”,这样变量 变为了分类型变量,观察三个层次的学历的工资箱线图,可以发现工资差别比较大.

符号检验,大数据,r语言,概率论

 (3)R程序在附录(程序3)中,汇总结果如下表所示:

符号检验,大数据,r语言,概率论

(4)可以看出,在显著性水平0.05下,p值相当低,足以拒绝原假设,即认为不同层次学历的工资是有显著差别的,这与箱线图反映的情况也是一致的。

5.4相关性检验

运用Pearson、Spearman和Kendall检验统计量检验数据集中lw(工资对数)和 s(受教育年限)之间是否相关,是正相关还是负相关?

解:

(1)假设:  h0:工资对数lw 和受教育年限 s之间不相关

                 h1: 工资对数lw 和受教育年限 s之间相关

(2)利用R软件画出工资对数和受教育年限各自的直方图和散点图(程序见附录程序4),运行图如下:

符号检验,大数据,r语言,概率论

 从图中可以看出变量s 的分布是不对称、不均匀的,变量lw 的分布较为对称。

符号检验,大数据,r语言,概率论

从图中看,两个变量之间似乎存在相关关系,因此利用三种方法来检验。

(3) Pearson、Spearman和Kendall三种方法的检验汇总结果(见附录程序4)如下表所示:

符号检验,大数据,r语言,概率论

 (4)从上述表格可以看出,三种方法的检验结果P值都是小于0.01,因此,在显著水平0.05时,都拒绝原假设,认为工资对数lw 和受教育年限s 之间相关,再根据相关系数值可以看出,Pearson检验,Kendall检验和Spearman检验都认为二者之间正相关,即可以得出结论:一般来说受教育年限越长,工资越高。文章来源地址https://www.toymoban.com/news/detail-785789.html

附录

library(MASS)
library(Matrix)
NLSYM<-read.csv("C:/Users/ASUS/Desktop/NLSYM.csv")
程序1
#iq
iq.median=median(NLSYM$iq)#iq中位数
m1<-sum(NLSYM$iq>iq.median)#数据中iq大于iq中位数的个数
m2<-sum(NLSYM$iq<iq.median)#数据中iq小于iq中位数的个数
k1<-min(m1,m2)
n1<-m1+m2
binom.test(k1,n1,0.5)#符号检验
wilcox.test(NLSYM$iq-iq.median)#wilcoxon符号秩检验
par(mfrow=c(1,2))
hist(NLSYM$iq)
plot(density(NLSYM$iq))
#age
age.median=median(NLSYM$age)#age中位数
m3<-sum(NLSYM$age>age.median)#数据中age大于age中位数的个数
m4<-sum(NLSYM$age<age.median)#数据中age小于age中位数的个数
k2<-min(m3,m4)
n2<-m3+m4
binom.test(k2,n2,0.5)#符号检验
wilcox.test(NLSYM$age-age.median)#wilcoxon符号秩检验
hist(NLSYM$age)
plot(density(NLSYM$age))
程序2
smsa0<-subset(NLSYM,smsa==0)  
smsa1<-subset(NLSYM,smsa==1)
w0<-smsa0$lw#不在大城市的工资数据
w1<-smsa1$lw#在大城市的工资数据
wilcox.test(w0,w1)
程序3
attach(NLSYM)
s=factor(s)
plot(lw~s)
detach(NLSYM)
rm(s)
attach(NLSYM)
v=s
low.index=(v<=12)
mid.index=(v>=13 & v<=16)
hig.index=(v>=17)
v[low.index]="A"
v[mid.index]="B"
v[hig.index]="C"
s=factor(v)
windows()
plot(lw~s,names=c("低学历","中学历","高学历"))
NLSYM$s=v
F=factor(NLSYM$s)
kruskal.test(lw,F)
程序4
lw<-NLSYM$lw
s<-NLSYM$s
par(mfrow=c(1,2))
hist(lw,border=F,col="red")
hist(s,border=F,col="red")
par(mfrow=c(1,1))
plot(lw,s,main="Scatter plot of TAX and MEDV")
cor.test(lw,s)       #pearson相关系数检验
cor.test(lw,s,meth="spearman")      #spearman秩相关系数检验
cor.test(lw,s,meth="kendall")     #kendallτ相关系数检验

到了这里,关于非参数检验-Wilcoxon,Wilcoxon-Mann-Whitney符号秩检验以及Pearson,Spearman秩,Kendall τ相关检验(附带实例-R实现)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • SPSS参数检验、非参数检验、方差分析

    在做数据分析的时候,不是只要有数据,就拿去做模型,也有很多数据,结合需求,是不需要用到模型的,比如: 奶茶店,老板想看一下,合作时间(年份为单位)与奶茶店销量的关系与差异。 像这样,只有一个自变量和一个因变量的数据,做模型效果是非常差的,也不能

    2023年04月08日
    浏览(57)
  • 参数检验和非参数检验(结合SPSS分析)

    概念 :是一种根据样本数据来推断总体的分布或均值、方差等总体统计参数的方法。 根据 样本 来推断 总体 的原因: 总体数据不可能全部收集到。如:质量检测问题 收集到总体全部数据要耗费大量的人力和财力 假设检验包括: 参数检验 非参数检验 基本原理 :利用小概率

    2024年02月06日
    浏览(46)
  • 参数与非参数检验:理解差异并正确使用

    数据科学是一个快速发展的领域,它在很大程度上依赖于统计技术来分析和理解复杂的数据集。这个过程的一个关键部分是假设检验,它有助于确定从样本中获得的结果是否可以推广到总体。 在这篇文章中,我们将探讨参数与非参数检验之间的区别,提供示例以更好地理解它

    2023年04月24日
    浏览(44)
  • 非参数检验方法,核密度估计简介

    在20世纪,统计学还处于起步阶段计算机还不是那么流行的时候,假设正态分布是生成数据的标准。这主要是因为在那个所有结果都是手工计算的时代,正态分布可以使计算不那么繁琐。 但在这个大数据时代,随着计算能力的提高,数据的可用性使得统计学家采用了更现代的

    2024年02月07日
    浏览(39)
  • 参数估计和假设检验的区别与联系

    笔记来源: 参数估计与假设检验 参数估计和假设检验有什么区别? 参数估计和假设检验是推断统计的两个组成部分,它们都是根据样本信息对总体的数量特征进行推断 下图来自《统计学图鉴》 参数估计和假设检验都是以抽样分布为理论依据,建立在概率论基础之上的统计

    2024年02月09日
    浏览(41)
  • 2023年数学建模:参数估计与假设检验:自助法(Bootstrap)详解

    目录 1. 引言 2. 自助法简介 3. 自助法在参数估计中的应用 3.1 原理

    2024年02月08日
    浏览(44)
  • 概率论与数理统计:第七章:参数估计 第八章:假设检验

    1.矩估计 p i ( θ ) p_i(θ) p i ​ ( θ ) 、 f ( x i , θ ) f(x_i,θ) f ( x i ​ , θ ) ,用矩估计法来估计未知参数θ { X ˉ = E ( X ) 1 n ∑ i = 1 n X i 2 = E ( X 2 ) left{begin{aligned} bar{X} = E(X) \\\\ dfrac{1}{n}sumlimits_{i=1}^nX_i^2 = E(X^2) end{aligned}right. ⎩ ⎨ ⎧ ​ X ˉ = n 1 ​ i = 1 ∑ n ​ X i 2 ​ = ​ E

    2024年02月11日
    浏览(45)
  • 机器人学DH参数及利用matlab符号运算推导

    重新复习了一下机器人学DH参数,并且利用matlab符号运算进行了推导,验证了公式。 图中的 坐标系定义 : 坐标系 i {i} i 的 z z z 轴 z i z_i z i ​ 和关节轴线 i i i 共线,指向任意规定。 坐标系 i {i} i 的 x x x 轴 x i x_i x i ​ 和 a i a_i a i ​ 重合,由关节 i i i 指向关节 i + 1 i+1 i

    2024年02月02日
    浏览(50)
  • 关于SpringBoot、Nginx 请求参数包含 [] 特殊符号 返回400状态

    问题来源: 使用RESTful风格发送带有特殊符号(如:点、大括号等)的请求,当使用Nginx做地址映射时会返回报\\\"HTTP Status 400-Bad Request\\\"的错误,这个时候我们需要对Nginx的映射方式做一下调整。 Nginx调整完发现跳转后又报了同样的错误,是因为SpringBoot也需要做兼容 如果请求地址是

    2024年02月15日
    浏览(43)
  • Java代码瘦身,巧用 @Valid,@Validated 的分组校验和嵌套检验,实现高阶参数校验操作

            在 JavaEE 项目中, RestFull 层接收参数首先要对一些字段的格式进行校验,以防止所有查询都落到数据库,这也是一种合理的限流手段。以前基本上都是用 if...else...,这样的代码太啰嗦,除了使用策略模式进行优化,今天介绍一下校验注解@Valid,@Validated和@PathVariable,

    2024年02月04日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包