统计系列(二)常见的概率分布
离散概率分布
伯努利分布
- 背景:抛一次硬币,正面朝上的概率
- 定义:一次试验中,只有两种结果,成功(X=1)概率为p,失败(X=0)概率为1-p。定义为伯努利试验。
- 数学描述
- P ( X = x ) = p x ( 1 − p ) 1 − x , x ∈ { 0 , 1 } P(X=x)=p^{x}(1-p)^{1-x}, x \in\{0,1\} P(X=x)=px(1−p)1−x,x∈{0,1}
- E ( X ) = p E(X)=p E(X)=p; D ( X ) = p ( 1 − p ) D(X)=p(1-p) D(X)=p(1−p)
二项分布
- 背景
- 扔10次硬币,有3次正面朝上的概率
- 上了一学期的课,有10次迟到的概率
- 定义:n次伯努利试验中,成功k次的概率
- 数学描述
- X ∼ B ( n , p ) X \sim B(n, p) X∼B(n,p)
- P ( X = k ) = C n k p k ( 1 − p ) n − k P(X=k)=C_{n}^{k}p^{k}(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k
- E ( X ) = n p E(X)=np E(X)=np; D ( X ) = n p ( 1 − p ) D(X)=np(1-p) D(X)=np(1−p)
多项分布
- 背景
- 掷10次骰子,有3次6的概率
- 踢10场足球,A球队赢7负1平2的概率
- 定义:假设每次试验的结果有k种,且每种结果的概率为p1,p2,…pk。且k种结果的概率之和为1。重复n次试验,每种结果出现次数集合的概率(例如每种结果的次数分别为x1,x2…xk次)
- 数学描述
- X ∼ P N ( N : p 1 . p 2 , … , p n ) X \sim PN(N:p1.p2,…,pn) X∼PN(N:p1.p2,…,pn)
- P ( X 1 = x 1 , X 2 = x 2 , . . . , X k = x k ) = n ! x 1 ! x 2 ! . . . x k ! p 1 x 1 p 2 x 2 . . . p k x k P(X_1=x_1, X_2=x_2,..., X_k=x_k)=\frac{n!}{x_1!x_2!...x_k!}p_{1}^{x_1}p_{2}^{x_2}...p_{k}^{x_k} P(X1=x1,X2=x2,...,Xk=xk)=x1!x2!...xk!n!p1x1p2x2...pkxk
- 多项分布对每种结果都有均值和方差: E ( X i ) = n p i E(X_i)=np_i E(Xi)=npi; D ( X i ) = n p i ( 1 − p i ) D(X_i)=np_i(1-p_i) D(Xi)=npi(1−pi)
几何分布
- 背景:
- 抛几次硬币能出现正面
- 考几次六级能通过
- 定义:几何分布由n次伯努利分布构成,随机变量X表示第一次成功所进行试验的次数。即前k-1次均失败,第k次成功。
- 数学描述:
- X ∼ G E ( p ) X \sim GE(p) X∼GE(p)
- P ( X = k ) = ( 1 − p ) k − 1 p P(X=k)=(1-p)^{k-1}p P(X=k)=(1−p)k−1p
- E ( X ) = 1 p E(X)=\frac{1}{p} E(X)=p1; D ( X ) = 1 − p p 2 D(X)=\frac{1-p}{p^2} D(X)=p21−p
泊松分布
- 背景:
- 网站每分钟有100次访问的概率
- 每天能卖多少个馒头
- 定义:某一时间区间内发生随机事件次数的概率分布
- 数学描述:
- X ∼ P ( λ ) X \sim P(\lambda) X∼P(λ)
- P ( X = k ) = λ k k ! e − λ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λke−λ
- E ( X ) = λ E(X)=\lambda E(X)=λ; D ( X ) = λ D(X)=\lambda D(X)=λ
- 二项分布与泊松分布
- 假设老板一周的馒头销量分别为[3,7,4,6,5],均值为5。每天需要准备多少个才能有95%的把握保证供应呢?
- 将每一天的营业时间切割成n等分,n越大越好。则每个区间 n i n_i ni只可能出现卖出馒头和未卖出馒头。则一天卖出k个馒头的概率符合二项分布 B ( n , p ) B(n, p) B(n,p)。即 lim n → ∞ ( n k ) p k ( 1 − p ) n − k \lim _{n \rightarrow \infty}\left(\begin{array}{l}n \\ k\end{array}\right) p^{k}(1-p)^{n-k} limn→∞(nk)pk(1−p)n−k
- 因此该问题转化为了二项分布,二项分布的期望为 E ( X ) = n p = μ E(X)=np=\mu E(X)=np=μ;则 p = μ n p=\frac{\mu}{n} p=nμ。带入上述极限公式则得到 lim n → ∞ ( n k ) ( μ k ) k ( 1 − ( μ k ) ) n − k = μ k k ! e − μ \lim _{n \rightarrow \infty}\left(\begin{array}{l}n \\ k\end{array}\right) (\frac{\mu}{k})^{k}(1-(\frac{\mu}{k}))^{n-k}=\frac{\mu^k}{k!}e^{-\mu} limn→∞(nk)(kμ)k(1−(kμ))n−k=k!μke−μ。所以一天内卖出k个馒头的概率为: P ( X = k ) = λ k k ! e − λ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λke−λ( μ = λ \mu=\lambda μ=λ,均值的替换)。因此泊松分布可以理解为n较大,p较小的二项分布
- 已知
x
ˉ
=
5
\bar{x}=5
xˉ=5,所以
λ
=
5
\lambda=5
λ=5。带入概率密度函数有:
P
(
X
=
k
)
=
5
k
k
!
e
−
5
P(X=k)=\frac{5^k}{k!}e^{-5}
P(X=k)=k!5ke−5。根据python
stats.poisson.cdf(k, 5)
计算得到:当k=9时,累计概率为0.968,因此每天需要至少准备9个馒头才能有95%的把握保证供应。
连续概率分布
均匀分布
- 背景:
- 掷一枚骰子,出现3的概率
- 生成1-100之间的随机数
- 定义:X在区间[a,b]上发生的概率均相等
- 数学描述:
- X ∼ U ( a , b ) X \sim U(a, b) X∼U(a,b)
- f ( x ) = { 0 , x < a 或 x > b 1 b − a , a ≤ x ≤ b f(x)=\left\{\begin{array}{l}0, x < a \text { 或 } x > b \\ \frac{1}{b-a}, a \leq x \leq b\end{array}\right. f(x)={0,x<a 或 x>bb−a1,a≤x≤b
- E ( X ) = a + b 2 E(X)=\frac{a+b}{2} E(X)=2a+b; D ( X ) = ( b − a ) 2 12 D(X)=\frac{(b-a)^2}{12} D(X)=12(b−a)2
指数分布
- 背景:
- 婴儿出生的时间间隔
- 网站访问的时间间隔
- 定义:两次随机事件发生时间间隔的概率分布
- 数学描述
- X ∼ E ( λ ) X \sim E(\lambda) X∼E(λ)
- f ( x ) = λ e − λ x , x ≥ 0 f(x)=\lambda e^{-\lambda x},x \geq 0 f(x)=λe−λx,x≥0: P ( X ≤ x ) = F ( x ) = 1 − e − λ x P(X \leq x)=F(x)=1-e^{-\lambda x} P(X≤x)=F(x)=1−e−λx
- E ( x ) = 1 λ E(x)=\frac{1}{\lambda} E(x)=λ1; D ( x ) = 1 λ 2 D(x)=\frac{1}{\lambda^2} D(x)=λ21
- 泊松分布与指数分布
- 馒头卖出之间的时间间隔
- 同样的将每天的营业时间切分为n等分,假设周三一天没有卖出馒头,则意味着周二最后一次卖出馒头和周四第一次卖出馒头之间间隔大于1天。某一天没有卖出馒头的概率根据泊松分布有 P ( X = 0 ) = λ 0 0 ! e − λ = e − λ P(X=0)=\frac{\lambda^0}{0!}e^{-\lambda}=e^{-\lambda} P(X=0)=0!λ0e−λ=e−λ。则时间间隔大于1天的概率 P ( Y > 1 ) = P ( X = 0 ) = e − λ P(Y>1)=P(X=0)=e^{-\lambda} P(Y>1)=P(X=0)=e−λ。扩展泊松函数得到新的函数 P ( X = k , t ) = ( λ t ) k k ! e λ t P(X=k, t)=\frac{(\lambda t)^k}{k!}e^{\lambda t} P(X=k,t)=k!(λt)keλt(泊松过程),当t=1时就是泊松分布。因此有 P ( Y > t ) = P ( X = 0 , t ) = ( λ t ) 0 0 ! e − λ t = e − λ t P(Y>t)=P(X=0,t)=\frac{(\lambda t)^0}{0!}e^{-\lambda t}=e^{-\lambda t} P(Y>t)=P(X=0,t)=0!(λt)0e−λt=e−λt,从而得到累计分布函数 P ( Y ≤ t ) = 1 − P ( Y > t ) = 1 − e − λ t = F ( y ) P(Y \leq t)=1-P(Y>t)=1-e^{-\lambda t}=F(y) P(Y≤t)=1−P(Y>t)=1−e−λt=F(y)。对 F ( y ) F(y) F(y)求导得到概率密度函数 f ( y ) = λ e − λ y f(y)=\lambda e^{-\lambda y} f(y)=λe−λy
- 泊松分布和指数分布的期望分别是: λ , 1 λ \lambda,\frac{1}{\lambda} λ,λ1。所以两者是倒数关系,因为每日卖出的馒头数越多,则每日卖出馒头的时间间隔就越短。
- 已知每天卖出5个馒头,因此每日卖出馒头的时间间隔的期望是 1 / 5 = 0.2 ( 天 ) 1/5=0.2(天) 1/5=0.2(天)
- 每天卖出馒头间隔低于0.5天的概率 P ( X ≤ 0.5 ) = 1 − e − 5 ∗ 0.5 = 0.918 P(X \leq 0.5)=1-e^{-5*0.5}=0.918 P(X≤0.5)=1−e−5∗0.5=0.918
伽马分布
- 背景:第3个婴儿出生的时间间隔
- 定义:事件第 i 次发生和第 i+k 次发生的时间间隔
- 数学描述:
- X ∼ G a ( α , λ ) X \sim Ga(\alpha,\lambda) X∼Ga(α,λ)
- f ( x ) = λ α Γ ( α ) x α − 1 e − λ x , x ≥ 0 f(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x \geq 0 f(x)=Γ(α)λαxα−1e−λx,x≥0,其中 α > 0 \alpha>0 α>0为形状参数, λ > 0 \lambda>0 λ>0为尺度参数
- E ( X ) = α λ E(X)=\frac{\alpha}{\lambda} E(X)=λα, D ( X ) = α λ 2 D(X)=\frac{\alpha}{\lambda^2} D(X)=λ2α
- Γ ( 1 ) = 1 , Γ ( 1 2 ) = π \Gamma(1)=1,\Gamma(\frac{1}{2})=\sqrt{\pi} Γ(1)=1,Γ(21)=π
- 两个特例
- α = 1 , G a ( 1 , λ ) = E ( λ ) \alpha=1, Ga(1,\lambda)=E(\lambda) α=1,Ga(1,λ)=E(λ),即等于指数分布
- α = n 2 , λ = 1 2 , G a ( n 2 , 1 2 ) = χ 2 ( n ) \alpha=\frac{n}{2},\lambda=\frac{1}{2}, Ga(\frac{n}{2},\frac{1}{2})=\chi^2(n) α=2n,λ=21,Ga(2n,21)=χ2(n),即等于卡方分布
贝塔分布
- 背景:棒球运动员击球率的概率分布
- 定义:定义(0,1)区间的连续概率分布,可以看做一个概率的概率分布。即当你不知道一个东西的具体概率时,它可以给出所有概率出现的可能性大小
- 数学描述:
- X ∼ B e t a ( α , β ) X \sim Beta(\alpha,\beta) X∼Beta(α,β)
- f ( x ) = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 f(x)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1} f(x)=B(α,β)1xα−1(1−x)β−1
- E ( X ) = α α + β E(X)=\frac{\alpha}{\alpha+\beta} E(X)=α+βα, D ( X ) = α β ( α + β ) 2 ( α + β + 1 ) D(X)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} D(X)=(α+β)2(α+β+1)αβ
高斯分布
- 背景:某个学校学生身高的分布
- 数学描述:
- X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) X∼N(μ,σ2)
- f ( x ) = 1 σ 2 π e − ( x − μ ) 2 / 2 σ 2 f(x)=\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{-(x-\mu)^{2} / 2 \sigma^{2}} f(x)=σ2π1e−(x−μ)2/2σ2
- E ( X ) = μ E(X)=\mu E(X)=μ; D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2
总结
每个概率分布都有其适宜的应用场景,且相互之间都有一定的联系。所以了解各概率分布的应用场景和内在关联,有助于提高对概率分布的理解。文章来源:https://www.toymoban.com/news/detail-413517.html
共勉~文章来源地址https://www.toymoban.com/news/detail-413517.html
参考
- 泊松分布的现实意义
- 指数分布公式的含义
到了这里,关于统计系列(二)常见的概率分布的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!