结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验

这篇具有很好参考价值的文章主要介绍了结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 正态分布与Z检验

1.1 理论

Z检验的目的是为了验证:已知一个总体服从均值,方差的正态分布,现在有一些样本,这些样本所代表的总体的均值是否为。

则构建一个统计量Z,

(1)

式中,为样本均值,为总体均值,为总体方差,n为样本数量。

若零假设(null hypothesis)成立,即:样本所代表的总体的均值为,则Z服从N(0, 1)。换一种说法就是统计量Z落在下图所示的标准正态分布概率密度函数的大概率区间,也就是白色区域所对应的横轴范围。

结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验

 若Z落在阴影范围所对应的横轴区域,则假设不成立,阴影范围的选取与给定的显著性水平有关。

1.2 应用

工厂老板宣称生产的零件符合正态分布,质检部门抽检了100个样本,那么这些样本所代表的全部零件的均值,是否跟老板所说的正态分布均值一致。这个问题就可以通过Z检验验证,计算样本均值,将样本均值和样本数量代入式(1),看Z值落在横轴的什么区域,白色区域检验合格,黑色区域检验不合格。

2 卡方分布和卡方检验

2.1 自由度的概念

在讲卡方分布前,先要理解样本的自由度。举例说明:一个列表中有10个数字,我告诉你,这10个数字你可以随便写,那么这个列表中10个数字都是“自由的”,有10个自由度。如果我告诉你,这个列表的平均值是5,那么你前9个值你可以随便写,第10个数是固定的,因为必须满足我给定的平均值,这样一来,这个列表的自由度就是9了。

上面是一维的情况,如果推广到二维,看下面这个例子。

化妆 不化妆 总数
100
100
总数 90 110

你调查了男生、女生各100人的化妆情况,上面四个空着的格子里,你只能随便写一个,剩下的三个必须根据总数来计算,所以这个例子中,四个空着的格子是4个样本,但是只有一个样本是“自由”的,所以自由度为1。自由度的计算公式:(行数 - 1)*(列数 - 1)

 更加详细的自由度解释,参见这边文章:用可视化思维解读统计自由度 - 简书

2.2 卡方分布

卡方分布定义如下

结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验

 2.3 卡方检验

卡方检验的目的是为了验证。两个事物之间是否有关系,还是拿自由度那里提到的男女化妆比例的例子来讲。现在想研究男女性别和是否化妆,这两件事是否相关。

假定不相关(这个就是零假设),也就是说,化妆和不化妆的人群中,男女所占的比例是相同的。在零假设中,样本的标准值就是下面这样:

化妆 不化妆 总数
45 55 100
45 55 100
总数 90 110

 随机抽样的样本结果如下

化妆 不化妆 总数
X1 X2 100
X3 X4 100
总数 90 110

 X1、X2、X3、X4为4个抽样样本,其数值分别为5、95、85、15。

构建如下式所示的一个统计量

  (2)

式中, 表示第i个样本, 表示第i个样本所对应的零假设值,k为样本数量

如果零假设成立,这个统计量服从自由度为n的卡方分布,化妆问题中,自由度为1,即自由度为1的卡方分布。

把样本数据代入式(2),发现其值落在了卡方分布的概率密度函数的小概率区间(与Z检验的原理类似),所以拒绝原假设。

2.4 卡方检验与卡方分布的关系

有读者看到这里会有疑问,为什么式(2)所构建的统计量服从卡方分布?

因为 服从正态分布,也服从正态分布(正态分布的样本减去常数再除一个常数还服从正态分布),所以那个统计量就服从卡方分布啦,就是卡方分布的定义嘛!

这里再说明一个问题,为什么 是服从正态分布的?

原假设中男性化妆和不化妆啊的概率为50%,那么100个男性中化妆的男性数量就满足正态分布了,就像扔硬币的正反面,下面的python代码直观给出了图像

import random
import matplotlib.pyplot as plt
import pandas as pd


plt.rcParams['font.sans-serif'] = ['SimHei']  # 防止中文标签乱码,还有通过导入字体文件的方法
plt.rcParams['axes.unicode_minus'] = False


def toss():
    # 1正面朝上
    return random.randint(0, 1)


def toss_100_times():
    # 掷100次硬币正面朝上的次数
    times = 0
    for i in range(100):
        times += toss()

    return times


if __name__ == "__main__":
    result = []
    for i in range(1000):
        result.append(toss_100_times())

    count = pd.value_counts(result)
    count = pd.DataFrame(count)
    count = count.sort_index(ascending=True)

    labels = list(count.index)
    data = list(count.iloc[:, 0])

    plt.bar(range(len(data)), data)
    plt.xticks(range(len(data)), labels)
    plt.xlabel("100次投掷中正面朝上的硬币数")
    plt.ylabel("频次")
    plt.show()

    print("done")

 结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验

3 t分布和t检验

3.1 t分布

结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验

 3.2 t检验

t检验一方面可以理解为Z检验的扩展。Z检验中,要求总体方差已知,但是现实中往往未知。这种情况下,通过样本方差,来构造符合t分布的统计量,如式(3)所示,进行t检验。

式中,为样本均值,为总体均值,s为样本方差,n为样本数量。

为什么这个统计量符合t分布的定义?

结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验

  详细的证明参见t分布是干什么用,t分布与t检验有什么不同,t检验到底在检验什么东西? - 知乎

 t检验还有配对t检验、两样本t检验,这里不详述了。

4 F分布与F检验

4.1 F分布

结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验

4.2 F检验

结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验文章来源地址https://www.toymoban.com/news/detail-453677.html

到了这里,关于结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 一些常见分布-正态分布、对数正态分布、伽马分布、卡方分布、t分布、F分布等

    目录 正态分布 对数正态分布  伽马分布 伽马函数 贝塔函数

    2024年02月07日
    浏览(49)
  • 两个独立的正态分布的和仍然为正态分布的证明

    正态分布的密度函数: f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 begin{align*} f(x) = frac{1}{sqrt{2pi}sigma}e^{-frac{(x-mu)^2}{2sigma^2}} end{align*} f ( x ) = 2 π ​ σ 1 ​ e − 2 σ 2 ( x − μ ) 2 ​ ​ 在进行理论推导之前,我们先通过Matlab数值计算看看两独立正态分布的乘积情况: 如图所示绿

    2024年02月06日
    浏览(54)
  • 正态分布的概率密度函数|多种正态分布检验|Q-Q图

    正态分布的概率密度函数(Probability Density Function,简称PDF)的函数取值是指在给定的正态分布参数(均值 μ 和标准差 σ)下,对于特定的随机变量取值 x,计算得到的概率密度值 f(x)。这个值表示了在正态分布下,随机变量取值为 x 的概率密度。 具体地,正态分布的概率密度

    2024年02月07日
    浏览(56)
  • PT_二维随机变量:正态分布的可加性/一维随机变量函数与正态分布

    一维随机变量函数与正态分布 PT_随机变量函数的分布_随机变量线性函数的正态分布_xuchaoxin1375的博客-CSDN博客 🎈正态分布的可加性 区别于一维随机变量的函数的正态分布的规律,多维随机变量(各个分量相互独立同分布)具有不同的规律 在一维的情况中, X ∼ N ( μ , σ 2 ) , 则

    2023年04月25日
    浏览(65)
  • 正态分布、对数正态分布参数(mu, sigma)与数据本身均值方差(m, v)的关系

    1 正态分布的参数mu sigma 为数据本身的均值m和标准差,即方差v的根 sqrt(v)。 2 对数正态分布参数 mu 和 sigma,与数据本身均值m和方差v之间存在如下关系: 利用如下MATLAB代码,对上述关系进行了验证。 运行结果如下:

    2024年02月12日
    浏览(51)
  • 【概率论】正态分布

    前导知识: 概率密度函数(密度函数):描述一个随机变量的在某个确定的取值点附近的可能性的函数。  随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。 性质: f(x)=0 数学期望 又称均值,是实验中每次结果的概率乘以其结果的总和,反映随机

    2024年02月13日
    浏览(119)
  • 正态分布(Normal distribution)

    目录 概念 性质 标准正态分布  \\\"3σ\\\"法则 参考资料 若连续性随机变量X的 概率密度 为 其中  为平均数, 为标准差, 为常数,则称X服从参数为  的正态分布(Normal distribution)或高斯(Gauss)分布,记为. X的 分布函数 为 1.正态分布的图形 曲线关于  对称,这表明对于任意  有

    2024年02月09日
    浏览(40)
  • 【分布族谱】正态分布和二项分布的关系

    正态分布,最早由棣莫弗在二项分布的渐近公式中得到,而真正奠定其地位的,应是高斯对测量误差的研究,故而又称Gauss分布。测量是人类定量认识自然界的基础,测量误差的普遍性,使得正态分布拥有广泛的应用场景,或许正因如此,正太分布在分布族谱图中居于核心的

    2024年02月05日
    浏览(55)
  • 【分布族谱】正态分布和卡方分布的关系

    正态分布,最早由棣莫弗在二项分布的渐近公式中得到,而真正奠定其地位的,应是高斯对测量误差的研究,故而又称Gauss分布。。测量是人类定量认识自然界的基础,测量误差的普遍性,使得正态分布拥有广泛的应用场景,或许正因如此,正太分布在分布族谱图中居于核心

    2024年02月07日
    浏览(273)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包