非参数检验-Wilcoxon,Wilcoxon-Mann-Whitney符号秩检验以及Pearson，Spearman秩，Kendall τ相关检验（附带实例-R实现）-Toy模板网

这篇具有很好参考价值的文章主要介绍了非参数检验-Wilcoxon,Wilcoxon-Mann-Whitney符号秩检验以及Pearson，Spearman秩，Kendall τ相关检验（附带实例-R实现）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1 单一样本检验

1.1 符号检验

符号检验是非参数统计中最古老的检验方法之一，这种检验被称为符号检验的一个理由是它所关心的信息只与两类观测值有关，如果用符号“+”和“-”区分，符号检验就是通过符号“+”和“-”的个数进行统计推断。符号检验的推断过程(以双边检验为例)：

符号检验,大数据,r语言,概率论

1.2 Wilcoxon符号秩检验

从1.1符号检验的定义和推断过程可以看出，它只利用了样本差异方向上的信息，并没有考虑差别的大小，即就是在符号检验中，每个样本点的正负号只是代表了该点在中心位置的那一边，但没有表明该点距离中心位置的远近。因此，就有了Wilcoxon符号秩检验，它弥补了符号检验的不足也充分得应用了样本信息。使用Wilcoxon符号秩检验的前提是假设总体分布具有对称性。

2 两独立样本检验

Wilcoxon-Mann-Whitney秩和检验

假定两总体分布有类似形状，不假定对称，样本

符号检验,大数据,r语言,概率论

3.多组数据位置推断

Kruskal-Wallis检验

Kruskal- Wallis检验是一个将两样本W-M-W检验推广到三组或更多检验的方法，如果数据取自完全随机设计，先把多个样本汇合起来求秩，再按样本组求秩和，考虑到各个处理的观测值可能不同，可以比较各个处理之间的平均秩差，从而达到比较的目的。

对检验问题，完全随机设计的的数据如下表所示

符号检验,大数据,r语言,概率论

4 相关性检验

4.1 Pearson相关系数

符号检验,大数据,r语言,概率论

4.2 Spearman秩相关检验

符号检验,大数据,r语言,概率论

4.3 Kendall τ相关检验

符号检验,大数据,r语言,概率论

5 实例

针对美国面板调查数据中的年轻男子组, 研究了工资与受教育年限的关系，该数据集中包括以下变量：lw（工资对数），s（受教育年限），age （年龄），tenure （在现单位的工作年数），iq （智商），med（母亲的受教育年限），rns （美国南方虚拟变量，住在南方=1），kww （在"knowledge of the World of Work"测试中的成绩） , mrt（婚姻虚拟变量,已婚=1），year（有数据的最早年份,1966 -1973年中的某年），smsa （大城市虚拟变量，住在大城市=1）。

5.1 Wilcoxon符号秩检验与符号检验

在上述数据集中运用Wilcoxon符号秩检验和符号检验两种方法检验 iq（智商）和 age（年龄）两个连续变量的中位数是否显著，并将两种方法的结果进行比较，分析在解决同样位置参数检验问题时各自的特点。

解：首先，先作出两组数据的直方图以及密度曲线，分别如图一和图二所示：

符号检验,大数据,r语言,概率论

从图一的直方图中看出变量iq 的数据分布大致是对称分布的，但在图二中，没有明显的迹象表明变量age 的数据分布大致是对称分布的：

符号检验,大数据,r语言,概率论

其次，由数据集计算可以得出中位数为104，中位数为22，最后进行双侧检验：检验所得样本中位数是否是总体的中心位置。假设检验：

符号检验,大数据,r语言,概率论

R程序在附录中，汇总结果如下表所示：

符号检验,大数据,r语言,概率论

结果分析：在显著水平0.05下，可以看出

(1) 变量iq符号检验p值为0.5783，Wilcoxon符号秩检验p值为0.8672，两者都大于0.05，因此，接受原假设，认为变量iq的中位数104在两个检验中都不显著；

(2) 变量age符号检验p值为0.01844，Wilcoxon符号秩检验p值为0.0288，两者都小于0.05，因此，拒绝原假设，说明变量age的中位数22在两个检验中都显著。

在(1)中虽然两者都接受了原假设，但是Wilcoxon符号秩检验的p值大于符号检验的p值，这就表明了在对称性的假定下，Wilcoxon符号秩检验将样本的信息量利用的更充分一些。在(2)中虽然两者都拒绝了原假设，但是符号检验的p值小于Wilcoxon符号秩检验的p值，这就表明了当总体分布对称性不成立时，符号检验的结果更可靠

5.2两独立样本检验

在数据集中 smsa（大城市虚拟变量，住在大城市=1）是分类变量，用Wilcoxon-Mann-Whitney秩和检验可以检验在大城市的工资与不在大城市的工资是否有显著差异。

解：(1)假设：H0: 在大城市与不在大城市的工资没有显著差异

H1:在大城市与不在大城市的工资有显著差异

(2) 利用R程序在附录中，运行结果如下图所示：

符号检验,大数据,r语言,概率论

图中 s0为不在大城市的工资数据，s1 为在大城市的工资数据。结果分析：从检验结果可以看出， p值小于0.05，因此，在显著水平0.05下，拒绝原假设，即在大城市与不在大城市的工资有显著差异。

5.3Kruskal-Wallis检验

运用Kruskal-Wallis检验方法研究不同学历的人的工资是否真的存在差异，即数据集中lw（工资对数）和 s（受教育年限）有多大关系？

(1)假设： H0：工资对数 lw和受教育年限s 之间无差异

H1 ：工资对数lw 和受教育年限 s之间有显著差异

(2)数据处理：原始数据中的变量s （受教育年限）的取值时一些整数：8，12，15，17，18等，但本题关注的是学历，因此将这些整数转化为不同层次的学历。其中小于等于12的整数被赋值为“低学历”，大于等于13且小于16的整数赋值为“中等学历”，大于等于17的整数赋值为“高等学历”，这样变量变为了分类型变量，观察三个层次的学历的工资箱线图，可以发现工资差别比较大.

符号检验,大数据,r语言,概率论

(3)R程序在附录(程序3)中，汇总结果如下表所示：

符号检验,大数据,r语言,概率论

(4)可以看出，在显著性水平0.05下，p值相当低，足以拒绝原假设，即认为不同层次学历的工资是有显著差别的，这与箱线图反映的情况也是一致的。

5.4相关性检验

运用Pearson、Spearman和Kendall检验统计量检验数据集中lw（工资对数）和 s（受教育年限）之间是否相关，是正相关还是负相关？

解：

(1)假设： h0:工资对数lw 和受教育年限 s之间不相关

h1: 工资对数lw 和受教育年限 s之间相关

(2)利用R软件画出工资对数和受教育年限各自的直方图和散点图(程序见附录程序4)，运行图如下：

符号检验,大数据,r语言,概率论

从图中可以看出变量s 的分布是不对称、不均匀的,变量lw 的分布较为对称。

符号检验,大数据,r语言,概率论

从图中看，两个变量之间似乎存在相关关系，因此利用三种方法来检验。

(3) Pearson、Spearman和Kendall三种方法的检验汇总结果(见附录程序4)如下表所示：

符号检验,大数据,r语言,概率论

(4)从上述表格可以看出，三种方法的检验结果P值都是小于0.01，因此，在显著水平0.05时，都拒绝原假设，认为工资对数lw 和受教育年限s 之间相关，再根据相关系数值可以看出，Pearson检验，Kendall检验和Spearman检验都认为二者之间正相关，即可以得出结论：一般来说受教育年限越长，工资越高。文章来源地址https://www.toymoban.com/news/detail-785789.html

附录

library(MASS)
library(Matrix)
NLSYM<-read.csv("C:/Users/ASUS/Desktop/NLSYM.csv")
程序1
#iq
iq.median=median(NLSYM$iq)#iq中位数
m1<-sum(NLSYM$iq>iq.median)#数据中iq大于iq中位数的个数
m2<-sum(NLSYM$iq<iq.median)#数据中iq小于iq中位数的个数
k1<-min(m1,m2)
n1<-m1+m2
binom.test(k1,n1,0.5)#符号检验
wilcox.test(NLSYM$iq-iq.median)#wilcoxon符号秩检验
par(mfrow=c(1,2))
hist(NLSYM$iq)
plot(density(NLSYM$iq))
#age
age.median=median(NLSYM$age)#age中位数
m3<-sum(NLSYM$age>age.median)#数据中age大于age中位数的个数
m4<-sum(NLSYM$age<age.median)#数据中age小于age中位数的个数
k2<-min(m3,m4)
n2<-m3+m4
binom.test(k2,n2,0.5)#符号检验
wilcox.test(NLSYM$age-age.median)#wilcoxon符号秩检验
hist(NLSYM$age)
plot(density(NLSYM$age))
程序2
smsa0<-subset(NLSYM,smsa==0)  
smsa1<-subset(NLSYM,smsa==1)
w0<-smsa0$lw#不在大城市的工资数据
w1<-smsa1$lw#在大城市的工资数据
wilcox.test(w0,w1)
程序3
attach(NLSYM)
s=factor(s)
plot(lw~s)
detach(NLSYM)
rm(s)
attach(NLSYM)
v=s
low.index=(v<=12)
mid.index=(v>=13 & v<=16)
hig.index=(v>=17)
v[low.index]="A"
v[mid.index]="B"
v[hig.index]="C"
s=factor(v)
windows()
plot(lw~s,names=c("低学历","中学历","高学历"))
NLSYM$s=v
F=factor(NLSYM$s)
kruskal.test(lw,F)
程序4
lw<-NLSYM$lw
s<-NLSYM$s
par(mfrow=c(1,2))
hist(lw,border=F,col="red")
hist(s,border=F,col="red")
par(mfrow=c(1,1))
plot(lw,s,main="Scatter plot of TAX and MEDV")
cor.test(lw,s)       #pearson相关系数检验
cor.test(lw,s,meth="spearman")      #spearman秩相关系数检验
cor.test(lw,s,meth="kendall")     #kendallτ相关系数检验

到了这里，关于非参数检验-Wilcoxon,Wilcoxon-Mann-Whitney符号秩检验以及Pearson，Spearman秩，Kendall τ相关检验（附带实例-R实现）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！