统计系列(二)常见的概率分布

这篇具有很好参考价值的文章主要介绍了统计系列(二)常见的概率分布。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

统计系列(二)常见的概率分布

离散概率分布

伯努利分布

  1. 背景:抛一次硬币,正面朝上的概率
  2. 定义:一次试验中,只有两种结果,成功(X=1)概率为p,失败(X=0)概率为1-p。定义为伯努利试验。
  3. 数学描述
    • P ( X = x ) = p x ( 1 − p ) 1 − x , x ∈ { 0 , 1 } P(X=x)=p^{x}(1-p)^{1-x}, x \in\{0,1\} P(X=x)=px(1p)1x,x{0,1}
    • E ( X ) = p E(X)=p E(X)=p; D ( X ) = p ( 1 − p ) D(X)=p(1-p) D(X)=p(1p)

二项分布

  1. 背景
    • 扔10次硬币,有3次正面朝上的概率
    • 上了一学期的课,有10次迟到的概率
  2. 定义:n次伯努利试验中,成功k次的概率
  3. 数学描述
    • X ∼ B ( n , p ) X \sim B(n, p) XB(n,p)
    • P ( X = k ) = C n k p k ( 1 − p ) n − k P(X=k)=C_{n}^{k}p^{k}(1-p)^{n-k} P(X=k)=Cnkpk(1p)nk
    • E ( X ) = n p E(X)=np E(X)=np; D ( X ) = n p ( 1 − p ) D(X)=np(1-p) D(X)=np(1p)

多项分布

  1. 背景
    • 掷10次骰子,有3次6的概率
    • 踢10场足球,A球队赢7负1平2的概率
  2. 定义:假设每次试验的结果有k种,且每种结果的概率为p1,p2,…pk。且k种结果的概率之和为1。重复n次试验,每种结果出现次数集合的概率(例如每种结果的次数分别为x1,x2…xk次)
  3. 数学描述
    • X ∼ P N ( N : p 1 . p 2 , … , p n ) X \sim PN(N:p1.p2,…,pn) XPN(Np1p2pn)
    • P ( X 1 = x 1 , X 2 = x 2 , . . . , X k = x k ) = n ! x 1 ! x 2 ! . . . x k ! p 1 x 1 p 2 x 2 . . . p k x k P(X_1=x_1, X_2=x_2,..., X_k=x_k)=\frac{n!}{x_1!x_2!...x_k!}p_{1}^{x_1}p_{2}^{x_2}...p_{k}^{x_k} P(X1=x1,X2=x2,...,Xk=xk)=x1!x2!...xk!n!p1x1p2x2...pkxk
    • 多项分布对每种结果都有均值和方差: E ( X i ) = n p i E(X_i)=np_i E(Xi)=npi; D ( X i ) = n p i ( 1 − p i ) D(X_i)=np_i(1-p_i) D(Xi)=npi(1pi)

几何分布

  1. 背景:
    • 抛几次硬币能出现正面
    • 考几次六级能通过
  2. 定义:几何分布由n次伯努利分布构成,随机变量X表示第一次成功所进行试验的次数。即前k-1次均失败,第k次成功。
  3. 数学描述:
    • X ∼ G E ( p ) X \sim GE(p) XGE(p)
    • P ( X = k ) = ( 1 − p ) k − 1 p P(X=k)=(1-p)^{k-1}p P(X=k)=(1p)k1p
    • E ( X ) = 1 p E(X)=\frac{1}{p} E(X)=p1; D ( X ) = 1 − p p 2 D(X)=\frac{1-p}{p^2} D(X)=p21p

泊松分布

  1. 背景:
    • 网站每分钟有100次访问的概率
    • 每天能卖多少个馒头
  2. 定义:某一时间区间内发生随机事件次数的概率分布
  3. 数学描述:
    • X ∼ P ( λ ) X \sim P(\lambda) XP(λ)
    • P ( X = k ) = λ k k ! e − λ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λkeλ
    • E ( X ) = λ E(X)=\lambda E(X)=λ D ( X ) = λ D(X)=\lambda D(X)=λ
  4. 二项分布与泊松分布
    1. 假设老板一周的馒头销量分别为[3,7,4,6,5],均值为5。每天需要准备多少个才能有95%的把握保证供应呢?
    2. 将每一天的营业时间切割成n等分,n越大越好。则每个区间 n i n_i ni只可能出现卖出馒头和未卖出馒头。则一天卖出k个馒头的概率符合二项分布 B ( n , p ) B(n, p) B(n,p)。即 lim ⁡ n → ∞ ( n k ) p k ( 1 − p ) n − k \lim _{n \rightarrow \infty}\left(\begin{array}{l}n \\ k\end{array}\right) p^{k}(1-p)^{n-k} limn(nk)pk(1p)nk
    3. 因此该问题转化为了二项分布,二项分布的期望为 E ( X ) = n p = μ E(X)=np=\mu E(X)=np=μ;则 p = μ n p=\frac{\mu}{n} p=nμ。带入上述极限公式则得到 lim ⁡ n → ∞ ( n k ) ( μ k ) k ( 1 − ( μ k ) ) n − k = μ k k ! e − μ \lim _{n \rightarrow \infty}\left(\begin{array}{l}n \\ k\end{array}\right) (\frac{\mu}{k})^{k}(1-(\frac{\mu}{k}))^{n-k}=\frac{\mu^k}{k!}e^{-\mu} limn(nk)(kμ)k(1(kμ))nk=k!μkeμ。所以一天内卖出k个馒头的概率为: P ( X = k ) = λ k k ! e − λ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λkeλ μ = λ \mu=\lambda μ=λ,均值的替换)。因此泊松分布可以理解为n较大,p较小的二项分布
    4. 已知 x ˉ = 5 \bar{x}=5 xˉ=5,所以 λ = 5 \lambda=5 λ=5。带入概率密度函数有: P ( X = k ) = 5 k k ! e − 5 P(X=k)=\frac{5^k}{k!}e^{-5} P(X=k)=k!5ke5。根据python stats.poisson.cdf(k, 5) 计算得到:当k=9时,累计概率为0.968,因此每天需要至少准备9个馒头才能有95%的把握保证供应。

连续概率分布

均匀分布

  1. 背景:
    • 掷一枚骰子,出现3的概率
    • 生成1-100之间的随机数
  2. 定义:X在区间[a,b]上发生的概率均相等
  3. 数学描述:
    • X ∼ U ( a , b ) X \sim U(a, b) XU(a,b)
    • f ( x ) = { 0 , x < a  或  x > b 1 b − a , a ≤ x ≤ b f(x)=\left\{\begin{array}{l}0, x < a \text { 或 } x > b \\ \frac{1}{b-a}, a \leq x \leq b\end{array}\right. f(x)={0,x<a  x>bba1,axb
    • E ( X ) = a + b 2 E(X)=\frac{a+b}{2} E(X)=2a+b; D ( X ) = ( b − a ) 2 12 D(X)=\frac{(b-a)^2}{12} D(X)=12(ba)2

指数分布

  1. 背景:
    • 婴儿出生的时间间隔
    • 网站访问的时间间隔
  2. 定义:两次随机事件发生时间间隔的概率分布
  3. 数学描述
    • X ∼ E ( λ ) X \sim E(\lambda) XE(λ)
    • f ( x ) = λ e − λ x , x ≥ 0 f(x)=\lambda e^{-\lambda x},x \geq 0 f(x)=λeλx,x0 P ( X ≤ x ) = F ( x ) = 1 − e − λ x P(X \leq x)=F(x)=1-e^{-\lambda x} P(Xx)=F(x)=1eλx
    • E ( x ) = 1 λ E(x)=\frac{1}{\lambda} E(x)=λ1; D ( x ) = 1 λ 2 D(x)=\frac{1}{\lambda^2} D(x)=λ21
  4. 泊松分布与指数分布
    1. 馒头卖出之间的时间间隔
    2. 同样的将每天的营业时间切分为n等分,假设周三一天没有卖出馒头,则意味着周二最后一次卖出馒头和周四第一次卖出馒头之间间隔大于1天。某一天没有卖出馒头的概率根据泊松分布有 P ( X = 0 ) = λ 0 0 ! e − λ = e − λ P(X=0)=\frac{\lambda^0}{0!}e^{-\lambda}=e^{-\lambda} P(X=0)=0!λ0eλ=eλ。则时间间隔大于1天的概率 P ( Y > 1 ) = P ( X = 0 ) = e − λ P(Y>1)=P(X=0)=e^{-\lambda} P(Y>1)=P(X=0)=eλ。扩展泊松函数得到新的函数 P ( X = k , t ) = ( λ t ) k k ! e λ t P(X=k, t)=\frac{(\lambda t)^k}{k!}e^{\lambda t} P(X=k,t)=k!(λt)keλt(泊松过程),当t=1时就是泊松分布。因此有 P ( Y > t ) = P ( X = 0 , t ) = ( λ t ) 0 0 ! e − λ t = e − λ t P(Y>t)=P(X=0,t)=\frac{(\lambda t)^0}{0!}e^{-\lambda t}=e^{-\lambda t} P(Y>t)=P(X=0,t)=0!(λt)0eλt=eλt,从而得到累计分布函数 P ( Y ≤ t ) = 1 − P ( Y > t ) = 1 − e − λ t = F ( y ) P(Y \leq t)=1-P(Y>t)=1-e^{-\lambda t}=F(y) P(Yt)=1P(Y>t)=1eλt=F(y)。对 F ( y ) F(y) F(y)求导得到概率密度函数 f ( y ) = λ e − λ y f(y)=\lambda e^{-\lambda y} f(y)=λeλy
    3. 泊松分布和指数分布的期望分别是: λ , 1 λ \lambda,\frac{1}{\lambda} λ,λ1。所以两者是倒数关系,因为每日卖出的馒头数越多,则每日卖出馒头的时间间隔就越短。
    4. 已知每天卖出5个馒头,因此每日卖出馒头的时间间隔的期望是 1 / 5 = 0.2 ( 天 ) 1/5=0.2(天) 1/5=0.2()
    5. 每天卖出馒头间隔低于0.5天的概率 P ( X ≤ 0.5 ) = 1 − e − 5 ∗ 0.5 = 0.918 P(X \leq 0.5)=1-e^{-5*0.5}=0.918 P(X0.5)=1e50.5=0.918

伽马分布

  1. 背景:第3个婴儿出生的时间间隔
  2. 定义:事件第 i 次发生和第 i+k 次发生的时间间隔
  3. 数学描述:
    • X ∼ G a ( α , λ ) X \sim Ga(\alpha,\lambda) XGa(α,λ)
    • f ( x ) = λ α Γ ( α ) x α − 1 e − λ x , x ≥ 0 f(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x \geq 0 f(x)=Γ(α)λαxα1eλx,x0,其中 α > 0 \alpha>0 α>0为形状参数, λ > 0 \lambda>0 λ>0为尺度参数
    • E ( X ) = α λ E(X)=\frac{\alpha}{\lambda} E(X)=λα, D ( X ) = α λ 2 D(X)=\frac{\alpha}{\lambda^2} D(X)=λ2α
    • Γ ( 1 ) = 1 , Γ ( 1 2 ) = π \Gamma(1)=1,\Gamma(\frac{1}{2})=\sqrt{\pi} Γ(1)=1,Γ(21)=π
  4. 两个特例
    • α = 1 , G a ( 1 , λ ) = E ( λ ) \alpha=1, Ga(1,\lambda)=E(\lambda) α=1,Ga(1,λ)=E(λ),即等于指数分布
    • α = n 2 , λ = 1 2 , G a ( n 2 , 1 2 ) = χ 2 ( n ) \alpha=\frac{n}{2},\lambda=\frac{1}{2}, Ga(\frac{n}{2},\frac{1}{2})=\chi^2(n) α=2n,λ=21,Ga(2n,21)=χ2(n),即等于卡方分布

贝塔分布

  1. 背景:棒球运动员击球率的概率分布
  2. 定义:定义(0,1)区间的连续概率分布,可以看做一个概率的概率分布。即当你不知道一个东西的具体概率时,它可以给出所有概率出现的可能性大小
  3. 数学描述:
    • X ∼ B e t a ( α , β ) X \sim Beta(\alpha,\beta) XBeta(α,β)
    • f ( x ) = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 f(x)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1} f(x)=B(α,β)1xα1(1x)β1
    • E ( X ) = α α + β E(X)=\frac{\alpha}{\alpha+\beta} E(X)=α+βα, D ( X ) = α β ( α + β ) 2 ( α + β + 1 ) D(X)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} D(X)=(α+β)2(α+β+1)αβ

高斯分布

  1. 背景:某个学校学生身高的分布
  2. 数学描述:
    • X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) XN(μ,σ2)
    • f ( x ) = 1 σ 2 π e − ( x − μ ) 2 / 2 σ 2 f(x)=\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{-(x-\mu)^{2} / 2 \sigma^{2}} f(x)=σ2π 1e(xμ)2/2σ2
    • E ( X ) = μ E(X)=\mu E(X)=μ; D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2

总结

每个概率分布都有其适宜的应用场景,且相互之间都有一定的联系。所以了解各概率分布的应用场景和内在关联,有助于提高对概率分布的理解。

共勉~文章来源地址https://www.toymoban.com/news/detail-413517.html

参考

  • 泊松分布的现实意义
  • 指数分布公式的含义

到了这里,关于统计系列(二)常见的概率分布的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【考研数学】概率论与数理统计 —— 第二章 | 一维随机变量及其分布(1,基本概念与随机变量常见类型)

    暑假接近尾声了,争取赶一点概率论部分的进度。 设随机试验 E E E 的样本空间为 Ω Omega Ω , X X X 为定义于样本空间 Ω Omega Ω 上的函数,对于任意 w ∈ Ω w in Omega w ∈ Ω ,总存在唯一确定的 X ( w ) X(w) X ( w ) 与之对应,称 X ( w ) X(w) X ( w ) 为随机变量,一般记为 X X X 。 随机

    2024年02月11日
    浏览(45)
  • 概率统计笔记:二维随机变量及其联合概率分布

    定义3 设 ( X , Y ) (X,Y) ( X , Y ) 为二维随机变量,对任意的 ( x , y ) ∈ R 2 (x,y)∈R^2 ( x , y ) ∈ R 2 ,称 F ( x , y ) = P ( X ≤ x , Y ≤ y ) F(x,y)=P(X≤x,Y≤y) F ( x , y ) = P ( X ≤ x , Y ≤ y ) 为随机变量 ( X , Y ) (X,Y) ( X , Y ) 的

    2023年04月08日
    浏览(42)
  • 概率统计·样本及抽样分布【随机样本、抽样分布】

    总体:试验的全部可能的观察值称为总体 个体:总体中每个可能的观察值称为个体 总体期望=样本平均期望 总体方差/n=样本平均方差 X 1 ,X 2 ……X n 相互独立(x 1 ,x 2 ……x n 是观察值),称为总体X的一个简单随机变量(样本) 联合=(全部)边缘相乘 函数表示化(不含未

    2024年02月10日
    浏览(54)
  • 【概率论与数理统计】二维随机变量:分布函数(联合分布函数、边缘分布函数)、联合概率密度、边缘概率密度、联合分布律、边缘分布律

    直观理解: 联合概率密度 草帽/山峰 边缘概率密度 切一刀的山峰切面 联合分布函数 切两刀山峰体 边缘分布函数 切一刀山峰体 联合分布律 和 边缘分布律 针对离散型随机变量 二维随机变量  联合分布函数(切两刀山峰体) 边缘分布函数 (切一刀山峰体)    【连续型随

    2024年02月05日
    浏览(34)
  • 概率论:数理统计基本概念——三大分布

    首先是X分布:    n=1的时候,f(y)就是正态分布平方的密度函数,这个可以用y=g(x)的密度函数计算方法来计算。 自由度是什么?: 很显然,几个X加起来,也就是自由度加起来:     接下来是t型分布:   这个T型分布建立在X型分布和标准正态分布上。   最后是F分布:    这

    2024年02月11日
    浏览(42)
  • 《统计学》第八版贾俊平第五章概率与概率分布

    一、考点归纳 二、练习题1写出下列随机试验的样本空间: (1)记录某班一次统计学测验的平均分数; (2)某人在公路上骑自行车,观察该骑车人在遇到第一个红灯停下来以前遇到绿灯的次数; (3)生产产品直到有10件正品为止,记录生产产品的总件数。 解:(1)平均分

    2023年04月27日
    浏览(46)
  • 统计学R语言实验2 :概率与分布

    实验 2     概率与分布 一、实验目的 1. 掌握理解离散型概率分布的相关概念。 2. 掌握理解连续型概率分布的相关概念。 3. 熟悉R语言等语言的集成开发环境。 二、实验分析与内容 完成教材P52-53的第2题和第8题  2.一条食品生产线每8小时一班中出现故障的次次数服从平均

    2024年01月17日
    浏览(37)
  • 概率论与数理统计---随机变量的分布

    随机变量 随机变量就是随机事件的数值体现。 例如投色子记录色子的点数,记录的点数其实就是一个随机变量,他是这个点数出现的数值体现。 注意: 随机变量X = X(e) , 是一个单实值函数,每个随机事件的结果只能对应一个随机变量。 X(e)体现的是对随机事件的描述,本质

    2024年02月13日
    浏览(44)
  • 概率论与数理统计————3.随机变量及其分布

    设E是一个随机试验,S为样本空间,样本空间的任意样本点e可以通过特定的对应法则X,使得每个样本点都有与之对应的数对应,则称 X=X(e)为随机变量 分布函数: 设X为随机变量,x是任意实数,则事件{Xx}为随机变量X的分布函数,记为F(x) 即: F(x)=P(Xx) (1)几何意

    2024年01月18日
    浏览(39)
  • 基于python/scipy学习概率统计(3):正态分布

    目录 1. 前言 2. 概率密度函数(PDF: Probability Density Function)¶ 3. 累积分布函数(CDF: Cumulative Distribution Function) 4. 百分点函数(PPF: Percent Point Function) 5. 生成函数和风险函数 6. 常用统计特征 7. 应用示例 7.1 从正态分布中采样 7.2 The 68-95-99.7 Rule 8. Why is the normal distribution useful and importan

    2023年04月08日
    浏览(89)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包