Kruskal-Wallis检验

这篇具有很好参考价值的文章主要介绍了Kruskal-Wallis检验。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

在看论文时,常看到Kruskal-Wallis检验,却不知道它具体是一个什么样的检验,这篇文章主要介绍Kruskal-Wallis检验的检验方法,和检验目的,不涉及Kruskal-Wallis检验的证明。详情请看博客原文

原理介绍

Kruskal-Wallis检验是基于wilcox秩和检验发展而来的,其目的是检验不同分组之间中位数是否均相同。其原假设为 H 0 : M 1 = M 2 = ⋅ ⋅ ⋅ = M k H_0: M_1=M_2=\cdot \cdot \cdot =M_k H0:M1=M2==Mk 。其中, k 为分组数, M i M_i Mi为第 i 组样本总体的中位数。若拒绝原假设,则说明这k组之间的中位数不全相同,即这k组样本不全来自一个总体。Kruskal-Wallis检验是基于秩的非参数性检验对于样本的原分布没有要求。

Kruskal-Wallis构造的统计量为:

H = 12 N ( N − 1 ) ∑ i = 0 k R i 2 n i − 3 ( N + 1 ) ,   v = k − 1 H = \frac{12}{N(N-1)}\sum_{i=0}^{k} \frac{R_i^2}{n_i} - 3(N+1),\ v=k-1 H=N(N1)12i=0kniRi23(N+1), v=k1

H服从自由度为 v 的 χ 2 \chi^2 χ2分布,下表是变量解释:

n i : 第 i 组中所含有的样本数 ,   N : ∑ i = 0 k n i   ,   R i : 第 i 组中所有样本排秩的和 ,   v : 自由度 \begin{align} n_i : 第i组中所含有的样本数, \ N : \sum_{i=0}^{k} n_i \ , \ R_i: 第i组中所有样本排秩的和, \ v: 自由度 \end{align} ni:i组中所含有的样本数, N:i=0kni , Ri:i组中所有样本排秩的和, v:自由度

这里,简单解释一下什么是排秩的和。Kruskal-Wallis检验是不关注原样本的实际测量值,而是同Wlicox秩和检验一样关注每个样本的实际测量值在所有样本中的排名情况,然后根据排名进行检验。而 R i R_i Ri表示的是所有i组的样本的排名进行相加得到的值。注意,在赋排名时遇到同样的观测值,一般是将这几个同样观测值先排名,然后根据他们的排秩求均值,最后算出的均值作为他们新的排秩。

案例分析

下表是一项动物研究,研究者欲探究A,B两种菌对小鼠巨噬细胞吞噬功能的激活作用,将59只小鼠随机分为三组,其中一组为生理盐水对照,最后检测这59只小鼠的吞噬率。
Kruskal-Wallis检验

在对实验各结果进行正态性检验以及方差齐性检验后,发现A,B菌组不服从正态分布。因此,可以采用Kruskal-Wallis进行检验。下面是检验步骤:

1. 检验假设

H 0 : 三个总体的分布相同,即三个处理组的吞噬率相同 H 1 : 三个总体的分布不相同或不全相同,即三个处理组的吞噬率不相同或不全相同 α = 0.005 \begin{align} & H_0: 三个总体的分布相同,即三个处理组的吞噬率相同 \\\\ & H_1: 三个总体的分布不相同或不全相同,即三个处理组的吞噬率不相同或不全相同 \\\\ & \alpha = 0.005 \end{align} H0:三个总体的分布相同,即三个处理组的吞噬率相同H1:三个总体的分布不相同或不全相同,即三个处理组的吞噬率不相同或不全相同α=0.005

2.编秩

将各组样本混合,由小到大排序并编秩,如遇有相等数值则取平均秩次,如吞噬率为65的有3个,他们的秩次为32、33和34,取平均秩次为 ( 32 + 33 + 34 ) / 3 = 33 (32+33+34)/3 = 33 (32+33+34)/3=33

3. 求秩和

分别求将各组秩次相加求得秩和 R 1 , R 2 和 R 3 R_1,R_2和R_3 R1,R2R3

4. 计算统计量

H = 12 59 ( 59 + 1 ) ( 92 4 2 24 + 70 1 2 19 + 14 5 2 16 ) − 3 ( 59 + 1 ) = 32.72 H = \frac{12}{59(59+1)}(\frac{924^2}{24}+\frac{701^2}{19}+\frac{145^2}{16})-3(59+1)=32.72 H=59(59+1)12(249242+197012+161452)3(59+1)=32.72

5.确定拒绝域与p值

  1. 当k=3,每组例数 n i ≤ 5 n_i \le 5 ni5 ,则可通过查表来获得P值和拒绝域
  2. 当k>3,或每组例数 n i ≥ 5 n_i \ge 5 ni5,则 H 服从以 k-1 为自由度的卡方分布。可通过卡方分布确定P值和拒绝域

若相同秩次较多(如超过25%),则需考虑矫正H统计量,矫正公式如下:

H c = H c c = 1 − ∑ ( t j 3 − t j ) N 3 − N \begin{align} & H_c = \frac{H}{c} \\\\ & c= 1 - \frac{\sum (t_j^3-t_j)}{N^3-N} \end{align} Hc=cHc=1N3N(tj3tj

其中, t j t_j tj表示第 j 次相持时相同秩次的个数。本例中

c = 1 − ( 3 3 − 3 ) + ( 4 4 − 4 ) + ( 7 7 − 7 ) + ( 3 3 − 3 ) + ( 5 3 − 3 ) + ( 2 3 − 2 ) 5 9 3 − 59 = 0.997 H c = 32.72 / 0.997 = 32.818 \begin{align} & c = 1-\frac{(3^3-3)+(4^4-4)+(7^7-7)+(3^3-3)+(5^3-3)+(2^3-2)}{59^3-59} = 0.997 \\\\ & H_c = 32.72/0.997 = 32.818 \end{align} c=159359(333)+(444)+(777)+(333)+(533)+(232)=0.997Hc=32.72/0.997=32.818

计算自由度,v = k - 1 = 3 - 1 = 2 。因此 χ 0.005 , 2 2 = 10.60 < H c = 32.818 \chi ^2_{0.005,2} = 10.60 < H_c = 32.818 χ0.005,22=10.60<Hc=32.818,故拒绝原假设,P < 0.005。可以认为,不同菌种对小鼠巨噬细胞的吞噬率有所不同。


参考链接

[1] 理论介绍

[[2] 医学统计学8年制 颜虹编 第2版: 174-177]

[3] 博客原文文章来源地址https://www.toymoban.com/news/detail-408272.html

到了这里,关于Kruskal-Wallis检验的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数学建模论文写作方法之一(模型分析/检验)

    一、模型的分析 灵敏度分析:步骤:控制其他参数不变的情况下,改变某个重要参数的值,观察模型结果的变化情况。以折线图的形式体现改变参数对结果的影响。如,变量向上向下数据波动x%,结果曲线变化趋势。 误差分析:指分析模型中的误差来源,或者估算模型中存在

    2024年02月11日
    浏览(45)
  • 【笔记】华莱士(Wallis)公式

    n ≥ 2 ngeq2 n ≥ 2 时,有 I n = ∫ 0 π 2 s i n n x d x ∫ 0 π 2 c o s n x d x = { n − 1 n ⋅ n − 3 n − 2 ⋯ 3 4 ⋅ 1 2 ⋅ π 2 , n 为偶数 n − 1 n ⋅ n − 3 n − 2 ⋯ 4 5 ⋅ 2 3 ⋅ 1 , n 为奇数 = { ( n − 1 ) ! ! ( n ) ! ! ⋅ π 2 , n 为偶数 ( n − 1 ) ! ! ( n ) ! ! , n 为奇数 I_n=int_0^frac{pi}{2}sin^nxdxint_0^

    2024年02月14日
    浏览(16)
  • R语言绘图丨论文中最常用箱线图绘制教程,自动进行显著性检验和误差线标注

    在科研论文绘图中,对于多组数据进行比较一般采用箱线图的方法,今天分享一下这个经典数据可视化方法,从零开始绘制一张带 误差棒 并自动计算 显著性 比较结果的 箱线图 。 数据分布信息: 箱线图能够直观地展示数据的分布情况,包括数据的中位数、上下四分位数和

    2024年02月12日
    浏览(50)
  • 关于Spark基本问题及结构[月薪2w的人都在看]

    目录   1.Spark是什么? 2.Spark与Hadoop  Spark与MapReduce对比 Spark与Hadoop 优点                          3. 什么是结构化数据? 什么是非结构化数据? 什么是结构化数据? 什么是非结构化数据? 4.Spark 架构作业执行原理 了解Spark架构 客户端 Driver  SparkContext  Cluster Manager SparkWorker

    2024年03月14日
    浏览(56)
  • 百万粉丝都在看的Python上手教程----滚雪球学Python

    前言: Hello大家好,我是Dream。 今天为大家带来一本书: 《滚雪球学Python》 一起来看看吧~ 《滚雪球学Python》之所以这样命名本书,是希望大家用滚雪球的思维学习编程语言,“滚”的第一遍,从全局掌握Python技术体系,“滚”的第二遍继续为自己的技术栈沾上更多的雪花,

    2024年01月24日
    浏览(50)
  • 【Python】重磅!这本30w人都在看的Python数据分析畅销书更新了!

    Python 语言极具吸引力。自从 1991 年诞生以来,Python 如今已经成为最受欢迎的解释型编程语言。 【文末送书】今天推荐一本Python领域优质数据分析书籍,这本30w人都在看的书,值得入手。 pandas 诞生于2008年。它是由韦斯·迈金尼(Wes McKinney)于2008年开始开发的,最初的目标是

    2024年02月05日
    浏览(49)
  • 【图论】kruskal算法

     Kruskal(克鲁斯卡尔)算法是一种用于解决最小生成树问题的贪心算法。 最小生成树是指在一个连通无向图中,选择一棵包含所有顶点且边权重之和最小的树。 下面是Kruskal算法的基本步骤: 将图中的所有边按照权重从小到大进行 排序 。 创建一个空的最小生成树 集合(并

    2024年02月15日
    浏览(36)
  • Kruskal 算法介绍

    构造最小生成树还有一种算法,即 Kruskal 算法:设图 G=(V,E)是无向连通带权图,V={1,2,...n};设最小生成树 T=(V,TE),该树的初始状态只有 n 个节点而无边的非连通图T=(V,{}),Kruskal 算法将这n 个节点看成 n 个孤立的连通分支。它首先将所有边都按权值从小到大排序,然

    2024年02月05日
    浏览(43)
  • Kruskal重构树详解

    目录 Kruskal算法 Kruskal重构树 在学习重构树之前,我们要先熟悉一下基本的kruskal算法 首先给出一张有向图,让我们求最小生成树(用总权值最小的一些边的集合,使得所有点都能互通,很明显n个点会有n-1条边) kruskal算法思想是先把所有的边按权值大小排序,得到这个样子

    2023年04月23日
    浏览(37)
  • Kruskal算法

    前置知识 :并查集、图的存储、贪心思想 为了保证学习效果,请保证已经掌握前置知识之后,再来学习本章节!如果在阅读中遇到困难,也可以回到前面章节查阅。 适用于稀疏图,时间复杂度 O(mlogm)O(mlogm)。 核心思想:从小到大挑不多余的边,属于贪心的算法。 之前介绍

    2024年02月08日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包