概率论:样本与总体分布,Z分数与概率

这篇具有很好参考价值的文章主要介绍了概率论:样本与总体分布,Z分数与概率。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

参考书目:《行为科学统计精要》(第八版)——弗雷德里克·J·格雷维特

数据及其样本的分布

描述一组数据分布

z分位数,分析师软实力,数据分析

 

描述一组样本数据的分布

描述样本数据的均值和整体数据一样,但是样本标准差的公式除以了n-1,这里引入自由度的概念

自由度:如果均值确定,那么n个数据组成的样本中,只有n-1个数据的取值是自由的,最后一个数据等于n*均值减去其余n-1个值的和

z分位数,分析师软实力,数据分析

Z分位数 

Z分位数描述的是一个数据在整组数据中的位置:即:当前值x距离总体均值有多少个标准差的距离

z分位数,分析师软实力,数据分析

 

Z分位数因为是描述分布位置的,所以我们通常在去量纲单位(标准化为0-1的分布)的处理中经常用到,因为不管数据单位是时分秒,十万百万千万,在观测某个数值在整体分布中的位置,衡量标准都是一样的,不受单位影响。

z分位数,分析师软实力,数据分析

 

Z分位数可以帮助判断一个样本是不是异常值,也就是根据一个数据在整组数据中的Z分位数值,对应找到这个数据在整组数据中出现的概率,具体数值参考标准正态分布表,如下图

z分位数,分析师软实力,数据分析

 也就是说,如果Z分位数大于1.96,那么数据出现的概率小于1-97.5%=2.5%,对应的因为是标准正态分布,所以Z分位数小于1.96,对应数据出现的概率也是同样小于2.5%

总体和样本

如果Z分位数衡量的是,一个数值在整体数值中出现的概率大小。换句话说Z分位数可以表示,这个数值是能代表整体的,还是说是个异常值

那么,按照这个思路,我们如何衡量在一个整体中随机挑选N个数值组成的样本是否能代表整体

我们直观感受,影响这个结论的因素有三点:

1、样本均值和总体均值是否相近(M-μ),越相近说明越能代表总体

2、总体分布方差,总体数据的离散度越小选中的样本越有代表性,极端情况总体数据都是一样的值,那么无论怎么选,样本分布都和总体分布一致

3、样本量大小(n),样本量越大越能体现整体,极端情况样本量最大等于整体数据量

将以上三个因素结合Z分位数的计算思路,我们引出样本Z分位数

z分位数,分析师软实力,数据分析

 

如果Z分位数过大或者过小,那么说明不大可能从总体中抽中这样的样本。文章来源地址https://www.toymoban.com/news/detail-722633.html

到了这里,关于概率论:样本与总体分布,Z分数与概率的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【小呆的概率论学习笔记】抽样调查之用抽样样本估计母体数字特征

    1. 随机变量的数字特征 随机变量本质上是一个随机数,他以概率的形式取任何可能的取值,但是随机变量取值却有一定的规律,我们可以称之为随机变量的数字特征。最简明、最常用的随机变量的数字特征就是均值(或者说期望)和方差。 1.1 随机变量的均值(期望) 随机变

    2024年02月01日
    浏览(94)
  • 【概率论】边缘分布和联合分布

    有X1,X2,X3,…,Xm共m个随机变量,各有其分布F1,F2,F3,…,Fm。 令X=(X1,X2,X3,…,Xm),则其为m维随机向量。则X的分布F为 联合分布 ,F1,F2,…,Fm为 边缘分布 。 边缘分布的命令来源: 有二维随机向量(X1,X2),其分布为 可以看到,“行合计”和“列合计”分别

    2024年02月16日
    浏览(57)
  • 【考研数学】概率论与数理统计 —— 第七章 | 参数估计(2,参数估计量的评价、正态总体的区间估计)

    设 X X X 为总体, ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,cdots ,X_n) ( X 1 ​ , X 2 ​ , ⋯ , X n ​ ) 为来自总体 X X X 的简单随机样本, θ theta θ 为未知参数,设 θ ^ = φ ( X 1 , X 2 , ⋯   , X n ) widehat{theta}=varphi(X_1,X_2,cdots,X_n) θ = φ ( X 1 ​ , X 2 ​ , ⋯ , X n ​ ) 为参数 θ theta θ 的一个点估

    2024年02月06日
    浏览(47)
  • 【概率论】正态分布

    前导知识: 概率密度函数(密度函数):描述一个随机变量的在某个确定的取值点附近的可能性的函数。  随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。 性质: f(x)=0 数学期望 又称均值,是实验中每次结果的概率乘以其结果的总和,反映随机

    2024年02月13日
    浏览(119)
  • 概率论:多维随机变量及分布

    X X X 为随机变量, ∀ x ∈ R , P { X ≤ x } = F ( x ) forall xin R,P{Xle x}=F(x) ∀ x ∈ R , P { X ≤ x } = F ( x ) 设 F ( x ) F(x) F ( x ) 为 X X X 的分布函数,则 (1) 0 ≤ F ( x ) ≤ 1 0le F(x)le1 0 ≤ F ( x ) ≤ 1 (2) F ( x ) F(x) F ( x ) 不减 (3) F ( x ) F(x) F ( x ) 右连续 (4) F ( − ∞ ) = 0 , F ( +

    2024年02月13日
    浏览(41)
  • 概率论之——高斯分布的乘积

    本来我并不想开机器学习这个专栏,因为机器学习与高数线代矩阵论概率论密切相关,我的数学能力没达到这种高度。然而控制理论也会涉及各种数理统计知识,那就不得不开一个数理栏了。 这个栏没有具体的知识路线,写到哪算哪,数学和机器学习相关且不好分类的东西都

    2024年02月11日
    浏览(49)
  • 【概率论】多维随机变量函数的分布(三)

    设随机变量X,Y相互独立同分布,均服从(0,1)上的均匀分布,则下列随机变量中仍然服从相应区间或区域上均匀分布的是()。 A. X 2 X^2 X

    2024年02月13日
    浏览(43)
  • 概率论:数理统计基本概念——三大分布

    首先是X分布:    n=1的时候,f(y)就是正态分布平方的密度函数,这个可以用y=g(x)的密度函数计算方法来计算。 自由度是什么?: 很显然,几个X加起来,也就是自由度加起来:     接下来是t型分布:   这个T型分布建立在X型分布和标准正态分布上。   最后是F分布:    这

    2024年02月11日
    浏览(47)
  • 【概率论与数理统计】二维随机变量:分布函数(联合分布函数、边缘分布函数)、联合概率密度、边缘概率密度、联合分布律、边缘分布律

    直观理解: 联合概率密度 草帽/山峰 边缘概率密度 切一刀的山峰切面 联合分布函数 切两刀山峰体 边缘分布函数 切一刀山峰体 联合分布律 和 边缘分布律 针对离散型随机变量 二维随机变量  联合分布函数(切两刀山峰体) 边缘分布函数 (切一刀山峰体)    【连续型随

    2024年02月05日
    浏览(35)
  • 概率论与数理统计---随机变量的分布

    随机变量 随机变量就是随机事件的数值体现。 例如投色子记录色子的点数,记录的点数其实就是一个随机变量,他是这个点数出现的数值体现。 注意: 随机变量X = X(e) , 是一个单实值函数,每个随机事件的结果只能对应一个随机变量。 X(e)体现的是对随机事件的描述,本质

    2024年02月13日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包