统计学习笔记:方差分析

这篇具有很好参考价值的文章主要介绍了统计学习笔记:方差分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

方差分析(ANOVA)又称F检验。方差分析是判定方差在组间和组内是否(明显)具有区别的一种方法。如果组内差异相对于组间差异较小,则可以推断出组与组之间是有明显差异的。
从形式上看,方差分析与t检验或z检验区别不大,都是检验均值是否相等,但方差分析可以同时比较多个均值。
广义的方差分析分为:

  • 单因素方差分析(1-way ANOVA)
  • 双因素方差分析(2-way ANOVA)与多因素方差分析(N-way ANOVA)
  • 协方差分析(ANCOVA)
  • 多响应方差分析(MANOVA)
  • 重复测量(Repeated Measures)

在这里主要介绍单因素方差分析(1-way ANOVA)。

基本思想

首先要说明的是,方差分析一共有三大前提假设:

  • 各组样本背后所隐含的族群分布必须为正态分布或者是逼近正态分布。
  • 各组样本必须独立。
  • 族群的方差必须相等。

方差分析的核心思想一句话:“所有样本的总差异可以分解为组间差异和组内差异”,即SST=SSR+SSE。 i i i为组别 ( i = 1 , 2... , I ) (i=1,2...,I) i=1,2...,I j j j为观测值个数 ( j = 1 , 2 , 3 , . . . , J ) (j=1,2,3,...,J) j=1,2,3,...,J Y i j Y_{ij} Yij为第 i i i组第 j j j个观测值, Y ‾ T o t a l \overline Y_{Total} YTotal为所有观测值的平均数。

  • 总差异(SST):全部样本与全体样本均值的总差异, ∑ i ∑ j ( Y i j − Y ‾ T o t a l ) 2 \sum_i\sum_j(Y_{ij}-\overline Y_{Total})^2 ij(YijYTotal)2,总差异的自由度为N-1。
  • 组间差异(SSR):组均值与总体均值的差异, ∑ i n i ( Y ˉ j − Y ‾ T o t a l ) 2 \sum_in_i(\bar Y_j-\overline Y_{Total})^2 ini(YˉjYTotal)2,组间差异的自由度为k-1。
  • 组内差异(SSE):具体每个样本与其所在组均值的差异, ∑ i ∑ j ( Y i j − Y ‾ j ) 2 \sum_i\sum_j(Y_{ij}-\overline Y_{j})^2 ij(YijYj)2 ,组内差异的自由度为N-k。

F检验的零假设认为所有组的均值都相等,备择假设则认为所有组的均值不全相等(即至少有一个组的均值与其它具有显著差异),如下:
H 0 : μ 1 = μ 2 = . . . = μ n H 1 : 所有组的均值不全相等 H_0:\mu_1=\mu_2=...=\mu_n\\ H_1:所有组的均值不全相等 H0:μ1=μ2=...=μnH1:所有组的均值不全相等
我们要通过SSR与SSE除以各自的自由度,得到MSR和MSE,MSR和MSE的比值就是F统计量:
F = S S R / k − 1 S S E / N − k = M S R M S E ∼ F k − 1 , N − k F=\frac{SSR/k-1}{SSE/N-k}=\frac{MSR}{MSE}\sim F_{k-1,N-k} F=SSE/NkSSR/k1=MSEMSRFk1,Nk
当H0成立时,F统计量服从对应自由度分别为k-1,N-k的F分布。F值越接近1,就越没有理由拒绝H0;反之,F值越大,拒绝H0的理由就越充分。

实例

方差分析组内和组间差异,学习,python,概率论

  • 计算总均值: Y ‾ T o t a l = 1.626 \overline Y_{Total}=1.626 YTotal=1.626
  • 计算分组均值: Y ‾ 1 = 1.674 \overline Y_1=1.674 Y1=1.674 Y ‾ 2 = 1.598 \overline Y_2=1.598 Y2=1.598 Y ‾ 3 = 1.649 \overline Y_3=1.649 Y3=1.649 Y ‾ 4 = 1.562 \overline Y_4=1.562 Y4=1.562
  • 计算组内差异: S S E = ∑ i ∑ j ( Y i j − Y ‾ j ) 2 = 0.167 SSE=\sum_i\sum_j(Y_{ij}-\overline Y_{j})^2=0.167 SSE=ij(YijYj)2=0.167
  • 计算组间差异: S S R = ∑ i n i ( Y ˉ j − Y ‾ T o t a l ) 2 = 0.049 SSR=\sum_in_i(\bar Y_j-\overline Y_{Total})^2=0.049 SSR=ini(YˉjYTotal)2=0.049
  • 计算F统计量: F = S S R / k − 1 S S E / N − k = 0.049 / 3 0.167 / 22 ≈ 2.17 F=\frac{SSR/k-1}{SSE/N-k}=\frac{0.049/3}{0.167/22}\approx2.17 F=SSE/NkSSR/k1=0.167/220.049/32.17

参考F统计量表, P ( F > 3.05 ) = 0.05 P(F>3.05)=0.05 P(F>3.05)=0.05,在95%置信水平上临界值为3.05。2.17<3.05,所以没有理由拒绝原假设。所以认为这四组数据的均值无显著差异。

Python实现

from scipy import stats

A1 = [1.6, 1.61, 1.65, 1.68, 1.7, 1.7, 1.78]
A2 = [1.5, 1.64, 1.4, 1.7, 1.75]
A3 = [1.64, 1.55, 1.6, 1.62, 1.64, 1.60, 1.74, 1.8]
A4 = [1.51, 1.52, 1.53, 1.57, 1.64, 1.6]

data = [A1, A2, A3, A4]
f, p = stats.f_oneway(*data)
print(f, p) 

得到的结果为:
方差分析组内和组间差异,学习,python,概率论
其中p>0.05,接受原假设。文章来源地址https://www.toymoban.com/news/detail-780168.html

到了这里,关于统计学习笔记:方差分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【应用统计学】方差分析

    【例7-1】 三台设备平均灌装时间分别是15.82秒、16.67秒和14.97秒。试用样本数据检验这3台机器灌装过程的时间是否存在显著不同,以便对设备的购买做出决策。( α=0.05 )  如果检验结果 接受原假设 ,则样本数据表明三台设备的平均灌装时间没有显著差异,选择任何一家提供商

    2023年04月16日
    浏览(42)
  • 统计教程|PASS实现单因素多水平方差分析的样本含量估计

    前面我们讲过当主要结局指标是连续变量时,两总体均数比较时样本量估计的计算公式原理以及PASS软件操作教程。当设计研究的试验因素只有一个,并且该因素的水平数(组数)k≥3,当主要研究指标为连续变量时我们常用单因素多水平方差分析即F检验来考察各组间该研究指

    2024年02月11日
    浏览(38)
  • 学习笔记:统计建模方法的比较分析

    本文介绍了隐马尔可夫模型 (HMM)、最大熵马尔可夫模型 (MEMM) 和条件随机场 (CRF) 的比较分析。 HMM、MEMM 和 CRF 是三种流行的统计建模方法,通常应用于模式识别和机器学习问题。 让我们更详细地探讨每种方法。 “隐藏”一词象征着只有系统发布的符号是可观察的,而用户无法

    2023年04月08日
    浏览(48)
  • 【概率论与数理统计】猴博士 笔记 p36-37 协方差、相关系数、不相关、相互独立时的期望和方差

    接下来做几道例题,练习一下套公式: 例1: 解: 前4个就是简单的套公式: 第5个有点类似分配律: C o v ( 2 X + 3 Y , 4 X + 5 Y ) = 8 C o v ( X , X ) + 10 C o v ( X , Y ) + 12 C o v ( X , Y ) + 15 C o v ( Y , Y ) Cov(2X+3Y,4X+5Y)=\\\\8Cov(X,X)+10Cov(X,Y)+12Cov(X,Y)+15Cov(Y,Y) C o v ( 2 X + 3 Y , 4 X + 5 Y ) = 8 C o v ( X , X

    2023年04月08日
    浏览(61)
  • R语言数据分析笔记——方差分析(单因素方差分析、双因素方差分析)在Excel、SPSS、R语言中的操作)

    前言:本文为个人学习笔记,为各大网站上的教学内容之综合整理,综合整理了①方差分析的基础知识、②方差分析(单因素方差分析、双因素方差分析)在Excel、SPSS、R语言中的操作),尽量标明出处。另因能力所限或有纰漏之处,故仅供参考,欢迎交流指正。 基本概念 指

    2024年02月05日
    浏览(45)
  • 【Python 数据分析】描述性统计:平均数(均值)、方差、标准差、极大值、极小值、中位数、百分位数、用箱型图表示分位数

    前面讲了数据分析中的第一步:数据预处理,下面就是数据分析的其中一个重头戏:描述性统计,具体内容为: 平均数(均值)、方差、标准差、极大值、极小值、中位数、百分位数、用箱型图表示分位数 。 关键方法 含义 .mean() 求均值 .var() 求方差 .std() 求标准差 .max() 求极

    2024年01月21日
    浏览(43)
  • stata学习笔记|异方差问题

    异方差无法用OLS进行估计的根源问题:方差较大的数据包含的信息量较小,但OLS是对所有数据进行相同的处理。异方差的问题并不会影响估计量的无偏性、一致性、渐近正态性,只是效率较低使得t检验和F检验失效。 说白了就是回归出来的系数不会改变,只是可能会导致显著

    2024年02月10日
    浏览(36)
  • 课题学习(十九)----Allan方差:陀螺仪噪声分析

       Allan方差是一种分析时域数据序列的方法,用于测量振荡器的频率稳定性。该方法还可用于确定系统中作为平均时间函数的本征噪声。该方法易于计算和理解,是目前最流行的识别和量化惯性传感器数据中存在的不同噪声项的方法之一。该方法的结果与适用于惯性传感器

    2024年01月22日
    浏览(43)
  • 【应用统计学】随机变量的概率分布,数学期望和方差及协方差

     【例4-5】某厂对一批产品进行抽检,该批产品含有10件正品及3件次品。设每次抽取时,各件产品被抽到的可能性相等。一件一件抽取产品进行检验,每次抽取的产品都不放回该批产品中,求直到抽得正品为止所需次数X的分布律。 解: 由于每次抽取的产品不再放回,因此离散型

    2024年02月05日
    浏览(51)
  • 【统计】假设检验方法 一、方差齐性检验

    1. 不同检验方法 最小样本量 的确认 由统计量反推得到 2. 检验方法 方差齐性检验(F检验): 两个独立样本的方差差异检验,反映了平均值的代表性。方差齐次检验前提要近似正态分布。 正态性检验: 是否符合正态分布 似然比检验: 比较样本不同似然函数,检验其分布 参

    2023年04月14日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包