正态分布t个标准差范围内的概率

这篇具有很好参考价值的文章主要介绍了正态分布t个标准差范围内的概率。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

如果一个随机变量具有概率密度函数

f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < ∞ \begin{aligned} f(x)=\frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < \infty \end{aligned} f(x)=2π σ1e2σ2(xμ)2,<x<

则称X为正态随机变量并记为 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) XN(μ,σ2).这里N 为"Normal"
一词的首字母. μ , σ \mu, \sigma μ,σ 都是常数, μ \mu μ 为均值,可以取任何实数值,
0 < σ 2 < ∞ 0 < \sigma^2 < \infty 0<σ2< 为方差, σ \sigma σ
称为标准差。这种分布我们称之为正态分布,德国数学家Gauss率先将其应用于天文学研究,故正态分布又叫高斯分布

下面是 μ = 1 , σ = 1 \mu=1, \sigma=1 μ=1,σ=1 μ = 1 , σ = 1 2 \mu=1,\sigma=\frac{1}{2} μ=1,σ=21
的正态分布概率密度函数图像:
正态分布t个标准差范围内的概率

我们知道 x = μ x=\mu x=μ 均值时,概率密度值最大,比如当标准差 σ = 1 \sigma=1 σ=1
时的概率密度值为 f ( μ ) = 1 2 π σ = 0.3989 f(\mu) = \frac{1}{\sqrt{2\pi} \sigma} = 0.3989 f(μ)=2π σ1=0.3989

问题1: t个标准差范围内的概率 P ( u − t σ ≤ x ≤ u + t σ ) P(u-t\sigma \le x \le u+t\sigma) P(utσxu+tσ)
是一个定值吗?和参数 u , σ u, \sigma u,σ 有没有关系?
其中 t 为大于0的实数。

下图在很多关于概率的书本中都可以找到,它形象的展示了正态分布下,值离均值的距离为-1个标准差到1个标准差的概率约为68%(即曲线从-1到1围成的面积),-2个标准差时概率约为95%,-3个标准差时概率约为99.7%
。但是大部分教材没有告诉我们为什么就是一个定值,这个值是怎么计算出来的?

正态分布t个标准差范围内的概率

其实我们做下下面的变换,就可以断定:不论是什么参数下的正态分布,t个标准差范围内的概率 P ( u − t σ ≤ x ≤ u + t σ ) P(u-t\sigma \le x \le u+t\sigma) P(utσxu+tσ)都是一个定值,和参数 u , σ u, \sigma u,σ
无关,这真是一件神奇的事情。

P ( u − t σ ≤ x ≤ u + t σ ) = ∫ u − t σ u + t σ 1 2 π σ e − ( x − μ ) 2 2 σ 2 d x = 1 2 π σ ∫ u − t σ u + t σ e − ( x − μ 2 σ ) 2 d x = 2 σ 2 π σ ∫ u − t σ u + t σ e − ( x − μ 2 σ ) 2 d x − μ 2 σ = 2 π ∫ 0 t 2 e − y 2 d y ( 1 ) \begin{aligned} &P(u-t\sigma \le x \le u+t\sigma) \\ &= \int_{u-t\sigma}^{u+t\sigma} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} dx \\ &= \frac{1}{\sqrt{2\pi} \sigma} \int_{u-t\sigma}^{u+t\sigma} e^{-(\frac{x-\mu}{\sqrt{2}\sigma})^2} dx \\ &=\frac{\sqrt{2}\sigma}{\sqrt{2\pi} \sigma} \int_{u-t\sigma}^{u+t\sigma} e^{-(\frac{x-\mu}{\sqrt{2}\sigma})^2} d\frac{x-\mu}{\sqrt{2}\sigma} \\ &=\frac{2}{\sqrt{\pi}} \int_{0}^{\frac{t}{\sqrt{2}}} e^{-y^2} d y \qquad (1) \end{aligned} P(utσxu+tσ)=utσu+tσ2π σ1e2σ2(xμ)2dx=2π σ1utσu+tσe(2 σxμ)2dx=2π σ2 σutσu+tσe(2 σxμ)2d2 σxμ=π 202 tey2dy(1)

问题2:如何计算(1)式 ?

如果我们直接去求不定积分 ∫ e − x 2 d x \int e^{-x^2} dx ex2dx
的初等函数表达式,那我们就会掉进坑里。因为 e − x 2 e^{-x^2} ex2这个函数的原函数不是初等函数!

为了解决上面的问题,这里先介绍下 e − x 2 − y 2 e^{-x^2-y^2} ex2y2函数的二重积分,转成极坐标的形式计算。下面面积D是一个半径 ρ = a \rho=a ρ=a的圆。

∫ ∫ D e − x 2 − y 2 d x d y = ∫ 0 2 π ∫ 0 a e − ρ 2 ρ d ρ d θ = ∫ 0 2 π − 1 2 e − ρ 2 ∣ 0 a d θ = ∫ 0 2 π − 1 2 ( e − a 2 − 1 ) d θ = 1 2 ( 1 − e − a 2 ) θ ∣ 0 2 π = π ( 1 − e − a 2 ) ( 2 ) \begin{aligned} \int\int_D e^{-x^2-y^2} dx dy &= \int_0^{2\pi} \int_0^a e^{-\rho^2} \rho d\rho d\theta \\ &= \int_0^{2\pi} -\frac{1}{2}e^{-\rho^2}\Big|_0^a d\theta \\ &= \int_0^{2\pi} -\frac{1}{2}(e^{-a^2} -1) d\theta \\ &= \frac{1}{2}(1-e^{-a^2})\theta \Big|_0^{2\pi}\\ &= \pi(1-e^{-a^2}) \qquad (2) \end{aligned} Dex2y2dxdy=02π0aeρ2ρdρdθ=02π21eρ20adθ=02π21(ea21)dθ=21(1ea2)θ02π=π(1ea2)(2)

不难想象这个函数的图形,首先考虑一元函数 e − x e^{-x} ex 的图形,然后注意到
− ( x 2 + y 2 ) ≤ 0 -(x^2+y^2) \le 0 (x2+y2)0, 即 e − ( x 2 + y 2 ) e^{-(x^2+y^2)} e(x2+y2)的最大值为 e 0 = 1 e^0=1 e0=1, 其次 x 2 + y 2 x^2+y^2 x2+y2
可以看成半径从 0 到 + ∞ +\infty + 变化的圆, 半径越大 e − ( x 2 + y 2 ) e^{-(x^2+y^2)} e(x2+y2)
越小,所以它的图像应该长下面的样子:

正态分布t个标准差范围内的概率

那么如何建立起 ∫ 0 + ∞ e − x 2 d x \int_0^{+\infty} e^{-x^2} dx 0+ex2dx
∫ ∫ D e − x 2 − y 2 d x d y \int\int_D e^{-x^2-y^2} dx dy Dex2y2dxdy 的关系?不难想到
∫ 0 + ∞ e − y 2 d y = ∫ 0 + ∞ e − x 2 d x \int_0^{+\infty} e^{-y^2} dy = \int_0^{+\infty} e^{-x^2} dx 0+ey2dy=0+ex2dx

那么

( ∫ 0 + ∞ e − x 2 d x ) 2 = ∫ 0 + ∞ e − x 2 d x ∫ 0 + ∞ e − y 2 d y = ∫ 0 + ∞ ∫ 0 + ∞ e − x 2 − y 2 d x d y = 1 4 ∫ − ∞ + ∞ ∫ − ∞ + ∞ e − x 2 − y 2 d x d y = 1 4 lim ⁡ a → ∞ π ( 1 − e − a 2 ) = π 4 \begin{aligned} (\int_0^{+\infty} e^{-x^2} dx )^2 &= \int_0^{+\infty} e^{-x^2} dx \int_0^{+\infty} e^{-y^2} dy \\ &= \int_0^{+\infty} \int_0^{+\infty} e^{-x^2-y^2} dx dy \\ &= \frac{1}{4} \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} e^{-x^2-y^2} dx dy \\ &=\frac{1}{4}\lim_{a \to \infty} \pi(1-e^{-a^2}) \\ &=\frac{\pi}{4} \end{aligned} (0+ex2dx)2=0+ex2dx0+ey2dy=0+0+ex2y2dxdy=41++ex2y2dxdy=41alimπ(1ea2)=4π

于是得到
∫ 0 + ∞ e − x 2 d x = π 2 ( 3 ) \int_0^{+\infty} e^{-x^2} dx = \frac{\sqrt{\pi}}{2} \qquad (3) 0+ex2dx=2π (3)

但是上面计算的是0到无穷的积分,(1)式中我们要计算的是0到某个固定值的积分。具体的讲,我们要求的积分区域如下图,正方形
S 是 ∫ 0 R ∫ 0 R e − x 2 − y 2 d y d x \int_0^{R} \int_0^{R} e^{-x^2-y^2} dy dx 0R0Rex2y2dydx 的积分区域,
∫ ∫ D e − x 2 − y 2 d x d y = π ( 1 − e − a 2 ) \int\int_D e^{-x^2-y^2} dx dy = \pi(1-e^{-a^2}) Dex2y2dxdy=π(1ea2) 中的 D
是由中心在原点、半径为 a 的圆周所围成的闭区域, 下图中 D 1 , D 2 D_1,D_2 D1,D2
a = R , a = 2 R a=R, a=\sqrt{2}R a=R,a=2 R 时相应 D 区域的 1 4 \frac{1}{4} 41

正态分布t个标准差范围内的概率

因此

∫ ∫ D 1 e − x 2 − y 2 d x d y < ∫ ∫ S e − x 2 − y 2 d x d y < ∫ ∫ D 2 e − x 2 − y 2 d x d y \begin{aligned} \int\int_{D_1} e^{-x^2-y^2} dx dy < \int\int_S e^{-x^2-y^2} dx dy < \int\int_{D_2} e^{-x^2-y^2} dx dy \end{aligned} D1ex2y2dxdy<Sex2y2dxdy<D2ex2y2dxdy

于是上面的不等式可以写成
π 4 ( 1 − e − R 2 ) < ( ∫ 0 R e − x 2 d x ) 2 < π 4 ( 1 − e − 2 R 2 ) ( 4 ) \frac{\pi}{4}(1-e^{-R^2}) < (\int_0^R e^{-x^2} dx)^2 < \frac{\pi}{4}(1-e^{-2R^2}) \qquad (4) 4π(1eR2)<(0Rex2dx)2<4π(1e2R2)(4)
但是上面这个不等式比较粗糙,我们可以构造更加精确的上下界

对于上界,我们可以找到1/4圆面积恰好等于正方形 R 2 R^2 R2的面积,如下图

正态分布t个标准差范围内的概率

此时圆的半径 r 1 r_1 r1
π r 1 2 4 = R 2 ⇒ r 1 2 = 4 R 2 π \frac{\pi r_1^2}{4} = R^2 \Rightarrow r_1^2 = \frac{4R^2}{\pi} 4πr12=R2r12=π4R2
由于 e − x 2 − y 2 e^{-x^2-y^2} ex2y2是单调递减函数,因此必定有此上界:
( ∫ 0 R e − x 2 d x ) 2 < π 4 ( 1 − e − 4 R 2 / π ) ( 5 ) (\int_0^R e^{-x^2} dx)^2 < \frac{\pi}{4}(1-e^{-4R^2/\pi}) \qquad (5) (0Rex2dx)2<4π(1e4R2/π)(5)

对于下界,如下图,我们可以找到
r 2 到 2 R 的阴影面积 S 1 = 正方形面积 S − D 1 r_2 \text{到} \sqrt{2}R \text{的阴影面积}S_1 = \text{正方形面积} S-D_1 r22 R的阴影面积S1=正方形面积SD1

正态分布t个标准差范围内的概率

由于 e − x 2 − y 2 e^{-x^2-y^2} ex2y2是单调递减函数,因此有
( ∫ 0 R e − x 2 d x ) 2 > ∫ D 1 + S 1 e − x 2 − y 2 d x d y (\int_0^R e^{-x^2} dx)^2 > \int_{D_1+S_1} e^{-x^2-y^2} dx dy (0Rex2dx)2>D1+S1ex2y2dxdy
此时圆的半径 r 2 r_2 r2

R 2 − π R 2 4 = 2 π R 2 4 − π r 2 2 4 ⇒ r 2 2 = 3 R 2 − 4 π R 2 \begin{aligned} &R^2-\frac{\pi R^2}{4} = \frac{2\pi R^2}{4} - \frac{\pi r_2^2}{4} \\ \Rightarrow &r_2^2 = 3R^2 - \frac{4}{\pi}R^2 \end{aligned} R24πR2=42πR24πr22r22=3R2π4R2

因此必定有此下界:

( ∫ 0 R e − x 2 d x ) 2 > π 4 ( 1 − e − R 2 ) + π 4 ( 1 − e − 2 R 2 ) − π 4 ( 1 − e − 3 R 2 + 4 π R 2 ) > π 4 ( 1 − e − R 2 − e − 2 R 2 + e − 3 R 2 + 4 π R 2 ) ( 6 ) \begin{aligned} (\int_0^R e^{-x^2} dx)^2 &> \frac{\pi}{4}(1-e^{-R^2}) + \frac{\pi}{4}(1-e^{-2R^2}) - \frac{\pi}{4}(1 - e^{-3R^2 + \frac{4}{\pi}R^2}) \\ &> \frac{\pi}{4}(1-e^{-R^2} - e^{-2R^2} + e^{-3R^2 + \frac{4}{\pi}R^2}) \qquad (6) \end{aligned} (0Rex2dx)2>4π(1eR2)+4π(1e2R2)4π(1e3R2+π4R2)>4π(1eR2e2R2+e3R2+π4R2)(6)

合并(5)(6)式,得到了比(4)式更加精确的不等式(7)

π 4 ( 1 − e − R 2 − e − 2 R 2 + e − 3 R 2 + 4 π R 2 ) < ( ∫ 0 R e − x 2 d x ) 2 < π 4 ( 1 − e − 4 R 2 / π ) ( 7 ) π 2 ( 1 − e − R 2 − e − 2 R 2 + e − 3 R 2 + 4 π R 2 ) < ∫ 0 R e − x 2 d x < π 2 1 − e − 4 R 2 / π ( 8 ) \begin{aligned} \frac{\pi}{4}(1-e^{-R^2} - e^{-2R^2} + e^{-3R^2 + \frac{4}{\pi}R^2}) <& (\int_0^R e^{-x^2} dx)^2 < \frac{\pi}{4}(1-e^{-4R^2/\pi}) \qquad (7)\\ \frac{\sqrt{\pi}}{2}\sqrt{(1-e^{-R^2} - e^{-2R^2} + e^{-3R^2 + \frac{4}{\pi}R^2})} <& \int_0^R e^{-x^2} dx < \frac{\sqrt{\pi}}{2}\sqrt{1-e^{-4R^2/\pi}} \qquad (8) \end{aligned} 4π(1eR2e2R2+e3R2+π4R2)<2π (1eR2e2R2+e3R2+π4R2) <(0Rex2dx)2<4π(1e4R2/π)(7)0Rex2dx<2π 1e4R2/π (8)

回到(1)式

P ( u − t σ ≤ x ≤ u + t σ ) = 2 π ∫ 0 t 2 e − x 2 d x \begin{aligned} P(u-t\sigma \le x \le u+t\sigma) =\frac{2}{\sqrt{\pi}} \int_{0}^{\frac{t}{\sqrt{2}}} e^{-x^2} d x \end{aligned} P(utσxu+tσ)=π 202 tex2dx

在不等式(8)中,取 R = t 2 R=\frac{t}{\sqrt{2}} R=2 t , 得

1 − e − t 2 / 2 − e − t 2 + e − 3 t 2 / 2 + 2 t 2 / π < P ( u − t σ ≤ x ≤ u + t σ ) < 1 − e − 2 t 2 / π ( 9 ) \begin{aligned} \sqrt{1-e^{-t^2/2} - e^{-t^2} + e^{-3t^2/2 + 2t^2/\pi}} < P(u-t\sigma \le x \le u+t\sigma) < \sqrt{1-e^{-2t^2/\pi}} \qquad (9) \end{aligned} 1et2/2et2+e3t2/2+2t2/π <P(utσxu+tσ)<1e2t2/π (9)

于是写个python程序计算下

def normal_prop_lowerbound(t):
    return math.sqrt(1-math.exp(-t*t/2)-math.exp(-t*t)+math.exp(-1.5*t*t+2/math.pi * t*t))

def normal_prop_upperbound(t):
    return math.sqrt(1-math.exp(-2*t*t/math.pi))

if __name__ == '__main__':
    print(normal_prop_lowerbound(1), "< 均值为中心1个标准差范围内的概率 <", normal_prop_upperbound(1))
    print(normal_prop_lowerbound(2), "< 均值为中心2个标准差范围内的概率 <", normal_prop_upperbound(2))
    print(normal_prop_lowerbound(3), "< 均值为中心3个标准差范围内的概率 <", normal_prop_upperbound(3))

程序输出:

0.6688228555159094 < 均值为中心1个标准差范围内的概率 <
0.6862377078915619

0.9370075438591285 < 均值为中心2个标准差范围内的概率 <
0.9600223595773711

0.9945801268713956 < 均值为中心3个标准差范围内的概率 <
0.998374454827675

另外,注意到,在(9)不等式中,当我们令 R
趋于正无穷,上式两端同时趋于极限1,
从而我们也验证了正态分布的概率密度函数的积分即概率确实为1.

当然在比较粗糙的(4)不等式中,令 R
趋于正无穷,也可以验证了正态分布的概率密度函数的积分即概率确实为1.

应用场景一:
有一堆数据我们想知道是否服从正态分布,我们可以通过统计1、2、3个标准差范围内的数据的概率是否大致符合0.68,0.95,0.997的概率来校验。如果不太符合这些概率,那么就不太可能是正态分布。

应用场景二:
有一堆数据假设服从正态分布,我们想知道那些数据是异常的,那么我们就可以设定t个标准差范围内的数据是正常的,即超过t个标准差的数据即 ∣ x − u ∣ > t σ |x-u| > t\sigma xu>tσ是异常的,取t为多少是合适的,就看我们的应用场景下的异常数据的概率有多大。

原文链接


欢迎关注我的微信公众号[数学345]:长按"识别图中二维码";或打开微信扫一扫。

正态分布t个标准差范围内的概率文章来源地址https://www.toymoban.com/news/detail-470663.html

到了这里,关于正态分布t个标准差范围内的概率的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【概率论】正态分布

    前导知识: 概率密度函数(密度函数):描述一个随机变量的在某个确定的取值点附近的可能性的函数。  随机变量的取值落在某个区域内的概率为概率密度函数在这个区域上的积分。 性质: f(x)=0 数学期望 又称均值,是实验中每次结果的概率乘以其结果的总和,反映随机

    2024年02月13日
    浏览(119)
  • 概论_第3章_正态分布的重要结论__正态分布与标准正态分布关系

    在两个随机变量的函数这一章节, 会涉及到正态分布。 一.  二.    若X, Y相互独立,  X~N(),     Y~N(),  则 aX+bY+c ~ N( ) .    特别注意  相加后, 不用加c 注意以下推理: 1, X 服从正态分布, Y 服从正态分布, X+Y  不一定服从正态分布        举例: Y= -X,    则X+Y=0,  就

    2024年02月03日
    浏览(71)
  • 基于python/scipy学习概率统计(3):正态分布

    目录 1. 前言 2. 概率密度函数(PDF: Probability Density Function)¶ 3. 累积分布函数(CDF: Cumulative Distribution Function) 4. 百分点函数(PPF: Percent Point Function) 5. 生成函数和风险函数 6. 常用统计特征 7. 应用示例 7.1 从正态分布中采样 7.2 The 68-95-99.7 Rule 8. Why is the normal distribution useful and importan

    2023年04月08日
    浏览(89)
  • 【小呆的概率论学习笔记】正态分布的代数运算

    0. 正态分布简介 正态分布应该是概率论和数理统计中最重要的一类概率分布,最早的完整论述是由数学王子高斯提出,高斯主要用来分析观测的误差分析中推导出正态分布。虽然随着概率统计学的发展,自然分布形式多种多样,但是正态分布仍然可以说是最重要的自然分布。

    2024年02月11日
    浏览(55)
  • 概率论与数理统计:正态分布相关推论及推导(更新ing)

    统计量: X ‾ = 1 n ∑ i = 1 n X i , 其 中 X i ~ N ( μ , σ 2 ) overline{X}= cfrac{1}{n}sum_{i=1}^nX_{i},其中X_{i}text{textasciitilde} N(mu,{sigma^{2}} ) X = n 1 ​ i = 1 ∑ n ​ X i ​ , 其 中 X i ​ ~ N ( μ , σ 2 ) S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2= cfrac{1}{n-1}sum_{i=1}^n(X_{i}-overline{X})^2 S 2 = n −

    2024年02月07日
    浏览(44)
  • 概率论之 证明 正态分布的上a 分位点的对称的性质

    公式(Z(a) = -Z(1-a)) 表示正态分布的上(a)分位点与下(1-a)分位点在分布曲线上关于均值的对称性。 左侧 (Z(a)): 这是分布曲线上累积概率为(a)的那个点。也就是说,这是一个使得这个点及其左侧的面积占据整个曲线下方(a)的位置。 右侧 (Z(1-a)): 这是分布曲线上累积概率为(1-a)的

    2024年01月15日
    浏览(39)
  • 【概率论与数理统计】猴博士 笔记 p41-44 统计量相关小题、三大分布的判定、性质、总体服从正态分布的统计量小题

    题干: 总体X 有一些样本X1、X2、X3… 解法: 注意,S的分母是 n-1 接下来练习套公式: 例1:直接背公式。 例2: 解:除X,S,n外有其他位置数的就不是统计量。 则,D。 例3: 解: 用到的考点: 还有正态分布的方差。 答案:n-1 题型如下: 题解: 只有三种分布: X(卡方)

    2023年04月08日
    浏览(57)
  • 正态分布检验:检验序列数据是否符合正态分布

    介绍 JB检验主要适用于 样本数量大于30 ,而且样本数越多,JB检验效果越准确。 JB检验主要用于 判断数据是否符合总体正态分布 ,而且构造的 JB统计量 需要符合自由度为2的卡方分布,即为 。JB统计量如下所示。 (n为样本量,S为偏度,K为峰度) JB检验主要 利用峰度 和 偏

    2024年02月07日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包