如果一个随机变量具有概率密度函数
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < ∞ \begin{aligned} f(x)=\frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < \infty \end{aligned} f(x)=2πσ1e−2σ2(x−μ)2,−∞<x<∞
则称X为正态随机变量并记为
X
∼
N
(
μ
,
σ
2
)
X \sim N(\mu, \sigma^2)
X∼N(μ,σ2).这里N 为"Normal"
一词的首字母.
μ
,
σ
\mu, \sigma
μ,σ 都是常数,
μ
\mu
μ 为均值,可以取任何实数值,
而
0
<
σ
2
<
∞
0 < \sigma^2 < \infty
0<σ2<∞ 为方差,
σ
\sigma
σ
称为标准差。这种分布我们称之为正态分布,德国数学家Gauss率先将其应用于天文学研究,故正态分布又叫高斯分布。
下面是
μ
=
1
,
σ
=
1
\mu=1, \sigma=1
μ=1,σ=1 和
μ
=
1
,
σ
=
1
2
\mu=1,\sigma=\frac{1}{2}
μ=1,σ=21
的正态分布概率密度函数图像:
我们知道
x
=
μ
x=\mu
x=μ 均值时,概率密度值最大,比如当标准差
σ
=
1
\sigma=1
σ=1
时的概率密度值为
f
(
μ
)
=
1
2
π
σ
=
0.3989
f(\mu) = \frac{1}{\sqrt{2\pi} \sigma} = 0.3989
f(μ)=2πσ1=0.3989
问题1: t个标准差范围内的概率
P
(
u
−
t
σ
≤
x
≤
u
+
t
σ
)
P(u-t\sigma \le x \le u+t\sigma)
P(u−tσ≤x≤u+tσ)
是一个定值吗?和参数
u
,
σ
u, \sigma
u,σ 有没有关系? 其中 t 为大于0的实数。
下图在很多关于概率的书本中都可以找到,它形象的展示了正态分布下,值离均值的距离为-1个标准差到1个标准差的概率约为68%(即曲线从-1到1围成的面积),-2个标准差时概率约为95%,-3个标准差时概率约为99.7%
。但是大部分教材没有告诉我们为什么就是一个定值,这个值是怎么计算出来的?
其实我们做下下面的变换,就可以断定:不论是什么参数下的正态分布,t个标准差范围内的概率
P
(
u
−
t
σ
≤
x
≤
u
+
t
σ
)
P(u-t\sigma \le x \le u+t\sigma)
P(u−tσ≤x≤u+tσ)都是一个定值,和参数
u
,
σ
u, \sigma
u,σ
无关,这真是一件神奇的事情。
P ( u − t σ ≤ x ≤ u + t σ ) = ∫ u − t σ u + t σ 1 2 π σ e − ( x − μ ) 2 2 σ 2 d x = 1 2 π σ ∫ u − t σ u + t σ e − ( x − μ 2 σ ) 2 d x = 2 σ 2 π σ ∫ u − t σ u + t σ e − ( x − μ 2 σ ) 2 d x − μ 2 σ = 2 π ∫ 0 t 2 e − y 2 d y ( 1 ) \begin{aligned} &P(u-t\sigma \le x \le u+t\sigma) \\ &= \int_{u-t\sigma}^{u+t\sigma} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} dx \\ &= \frac{1}{\sqrt{2\pi} \sigma} \int_{u-t\sigma}^{u+t\sigma} e^{-(\frac{x-\mu}{\sqrt{2}\sigma})^2} dx \\ &=\frac{\sqrt{2}\sigma}{\sqrt{2\pi} \sigma} \int_{u-t\sigma}^{u+t\sigma} e^{-(\frac{x-\mu}{\sqrt{2}\sigma})^2} d\frac{x-\mu}{\sqrt{2}\sigma} \\ &=\frac{2}{\sqrt{\pi}} \int_{0}^{\frac{t}{\sqrt{2}}} e^{-y^2} d y \qquad (1) \end{aligned} P(u−tσ≤x≤u+tσ)=∫u−tσu+tσ2πσ1e−2σ2(x−μ)2dx=2πσ1∫u−tσu+tσe−(2σx−μ)2dx=2πσ2σ∫u−tσu+tσe−(2σx−μ)2d2σx−μ=π2∫02te−y2dy(1)
问题2:如何计算(1)式 ?
如果我们直接去求不定积分
∫
e
−
x
2
d
x
\int e^{-x^2} dx
∫e−x2dx
的初等函数表达式,那我们就会掉进坑里。因为
e
−
x
2
e^{-x^2}
e−x2这个函数的原函数不是初等函数!
为了解决上面的问题,这里先介绍下 e − x 2 − y 2 e^{-x^2-y^2} e−x2−y2函数的二重积分,转成极坐标的形式计算。下面面积D是一个半径 ρ = a \rho=a ρ=a的圆。
∫ ∫ D e − x 2 − y 2 d x d y = ∫ 0 2 π ∫ 0 a e − ρ 2 ρ d ρ d θ = ∫ 0 2 π − 1 2 e − ρ 2 ∣ 0 a d θ = ∫ 0 2 π − 1 2 ( e − a 2 − 1 ) d θ = 1 2 ( 1 − e − a 2 ) θ ∣ 0 2 π = π ( 1 − e − a 2 ) ( 2 ) \begin{aligned} \int\int_D e^{-x^2-y^2} dx dy &= \int_0^{2\pi} \int_0^a e^{-\rho^2} \rho d\rho d\theta \\ &= \int_0^{2\pi} -\frac{1}{2}e^{-\rho^2}\Big|_0^a d\theta \\ &= \int_0^{2\pi} -\frac{1}{2}(e^{-a^2} -1) d\theta \\ &= \frac{1}{2}(1-e^{-a^2})\theta \Big|_0^{2\pi}\\ &= \pi(1-e^{-a^2}) \qquad (2) \end{aligned} ∫∫De−x2−y2dxdy=∫02π∫0ae−ρ2ρdρdθ=∫02π−21e−ρ2∣∣∣0adθ=∫02π−21(e−a2−1)dθ=21(1−e−a2)θ∣∣∣02π=π(1−e−a2)(2)
不难想象这个函数的图形,首先考虑一元函数
e
−
x
e^{-x}
e−x 的图形,然后注意到
−
(
x
2
+
y
2
)
≤
0
-(x^2+y^2) \le 0
−(x2+y2)≤0, 即
e
−
(
x
2
+
y
2
)
e^{-(x^2+y^2)}
e−(x2+y2)的最大值为
e
0
=
1
e^0=1
e0=1, 其次
x
2
+
y
2
x^2+y^2
x2+y2
可以看成半径从 0 到
+
∞
+\infty
+∞ 变化的圆, 半径越大
e
−
(
x
2
+
y
2
)
e^{-(x^2+y^2)}
e−(x2+y2)
越小,所以它的图像应该长下面的样子:
那么如何建立起
∫
0
+
∞
e
−
x
2
d
x
\int_0^{+\infty} e^{-x^2} dx
∫0+∞e−x2dx 和
∫
∫
D
e
−
x
2
−
y
2
d
x
d
y
\int\int_D e^{-x^2-y^2} dx dy
∫∫De−x2−y2dxdy 的关系?不难想到
∫
0
+
∞
e
−
y
2
d
y
=
∫
0
+
∞
e
−
x
2
d
x
\int_0^{+\infty} e^{-y^2} dy = \int_0^{+\infty} e^{-x^2} dx
∫0+∞e−y2dy=∫0+∞e−x2dx
那么
( ∫ 0 + ∞ e − x 2 d x ) 2 = ∫ 0 + ∞ e − x 2 d x ∫ 0 + ∞ e − y 2 d y = ∫ 0 + ∞ ∫ 0 + ∞ e − x 2 − y 2 d x d y = 1 4 ∫ − ∞ + ∞ ∫ − ∞ + ∞ e − x 2 − y 2 d x d y = 1 4 lim a → ∞ π ( 1 − e − a 2 ) = π 4 \begin{aligned} (\int_0^{+\infty} e^{-x^2} dx )^2 &= \int_0^{+\infty} e^{-x^2} dx \int_0^{+\infty} e^{-y^2} dy \\ &= \int_0^{+\infty} \int_0^{+\infty} e^{-x^2-y^2} dx dy \\ &= \frac{1}{4} \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} e^{-x^2-y^2} dx dy \\ &=\frac{1}{4}\lim_{a \to \infty} \pi(1-e^{-a^2}) \\ &=\frac{\pi}{4} \end{aligned} (∫0+∞e−x2dx)2=∫0+∞e−x2dx∫0+∞e−y2dy=∫0+∞∫0+∞e−x2−y2dxdy=41∫−∞+∞∫−∞+∞e−x2−y2dxdy=41a→∞limπ(1−e−a2)=4π
于是得到
∫
0
+
∞
e
−
x
2
d
x
=
π
2
(
3
)
\int_0^{+\infty} e^{-x^2} dx = \frac{\sqrt{\pi}}{2} \qquad (3)
∫0+∞e−x2dx=2π(3)
但是上面计算的是0到无穷的积分,(1)式中我们要计算的是0到某个固定值的积分。具体的讲,我们要求的积分区域如下图,正方形
S 是
∫
0
R
∫
0
R
e
−
x
2
−
y
2
d
y
d
x
\int_0^{R} \int_0^{R} e^{-x^2-y^2} dy dx
∫0R∫0Re−x2−y2dydx 的积分区域,
∫
∫
D
e
−
x
2
−
y
2
d
x
d
y
=
π
(
1
−
e
−
a
2
)
\int\int_D e^{-x^2-y^2} dx dy = \pi(1-e^{-a^2})
∫∫De−x2−y2dxdy=π(1−e−a2) 中的 D
是由中心在原点、半径为 a 的圆周所围成的闭区域, 下图中
D
1
,
D
2
D_1,D_2
D1,D2 是
a
=
R
,
a
=
2
R
a=R, a=\sqrt{2}R
a=R,a=2R 时相应 D 区域的
1
4
\frac{1}{4}
41。
因此
∫ ∫ D 1 e − x 2 − y 2 d x d y < ∫ ∫ S e − x 2 − y 2 d x d y < ∫ ∫ D 2 e − x 2 − y 2 d x d y \begin{aligned} \int\int_{D_1} e^{-x^2-y^2} dx dy < \int\int_S e^{-x^2-y^2} dx dy < \int\int_{D_2} e^{-x^2-y^2} dx dy \end{aligned} ∫∫D1e−x2−y2dxdy<∫∫Se−x2−y2dxdy<∫∫D2e−x2−y2dxdy
于是上面的不等式可以写成
π
4
(
1
−
e
−
R
2
)
<
(
∫
0
R
e
−
x
2
d
x
)
2
<
π
4
(
1
−
e
−
2
R
2
)
(
4
)
\frac{\pi}{4}(1-e^{-R^2}) < (\int_0^R e^{-x^2} dx)^2 < \frac{\pi}{4}(1-e^{-2R^2}) \qquad (4)
4π(1−e−R2)<(∫0Re−x2dx)2<4π(1−e−2R2)(4)
但是上面这个不等式比较粗糙,我们可以构造更加精确的上下界。
对于上界,我们可以找到1/4圆面积恰好等于正方形 R 2 R^2 R2的面积,如下图
此时圆的半径
r
1
r_1
r1为
π
r
1
2
4
=
R
2
⇒
r
1
2
=
4
R
2
π
\frac{\pi r_1^2}{4} = R^2 \Rightarrow r_1^2 = \frac{4R^2}{\pi}
4πr12=R2⇒r12=π4R2
由于
e
−
x
2
−
y
2
e^{-x^2-y^2}
e−x2−y2是单调递减函数,因此必定有此上界:
(
∫
0
R
e
−
x
2
d
x
)
2
<
π
4
(
1
−
e
−
4
R
2
/
π
)
(
5
)
(\int_0^R e^{-x^2} dx)^2 < \frac{\pi}{4}(1-e^{-4R^2/\pi}) \qquad (5)
(∫0Re−x2dx)2<4π(1−e−4R2/π)(5)
对于下界,如下图,我们可以找到
r
2
到
2
R
的阴影面积
S
1
=
正方形面积
S
−
D
1
r_2 \text{到} \sqrt{2}R \text{的阴影面积}S_1 = \text{正方形面积} S-D_1
r2到2R的阴影面积S1=正方形面积S−D1
由于
e
−
x
2
−
y
2
e^{-x^2-y^2}
e−x2−y2是单调递减函数,因此有
(
∫
0
R
e
−
x
2
d
x
)
2
>
∫
D
1
+
S
1
e
−
x
2
−
y
2
d
x
d
y
(\int_0^R e^{-x^2} dx)^2 > \int_{D_1+S_1} e^{-x^2-y^2} dx dy
(∫0Re−x2dx)2>∫D1+S1e−x2−y2dxdy
此时圆的半径
r
2
r_2
r2为
R 2 − π R 2 4 = 2 π R 2 4 − π r 2 2 4 ⇒ r 2 2 = 3 R 2 − 4 π R 2 \begin{aligned} &R^2-\frac{\pi R^2}{4} = \frac{2\pi R^2}{4} - \frac{\pi r_2^2}{4} \\ \Rightarrow &r_2^2 = 3R^2 - \frac{4}{\pi}R^2 \end{aligned} ⇒R2−4πR2=42πR2−4πr22r22=3R2−π4R2
因此必定有此下界:
( ∫ 0 R e − x 2 d x ) 2 > π 4 ( 1 − e − R 2 ) + π 4 ( 1 − e − 2 R 2 ) − π 4 ( 1 − e − 3 R 2 + 4 π R 2 ) > π 4 ( 1 − e − R 2 − e − 2 R 2 + e − 3 R 2 + 4 π R 2 ) ( 6 ) \begin{aligned} (\int_0^R e^{-x^2} dx)^2 &> \frac{\pi}{4}(1-e^{-R^2}) + \frac{\pi}{4}(1-e^{-2R^2}) - \frac{\pi}{4}(1 - e^{-3R^2 + \frac{4}{\pi}R^2}) \\ &> \frac{\pi}{4}(1-e^{-R^2} - e^{-2R^2} + e^{-3R^2 + \frac{4}{\pi}R^2}) \qquad (6) \end{aligned} (∫0Re−x2dx)2>4π(1−e−R2)+4π(1−e−2R2)−4π(1−e−3R2+π4R2)>4π(1−e−R2−e−2R2+e−3R2+π4R2)(6)
合并(5)(6)式,得到了比(4)式更加精确的不等式(7)
π 4 ( 1 − e − R 2 − e − 2 R 2 + e − 3 R 2 + 4 π R 2 ) < ( ∫ 0 R e − x 2 d x ) 2 < π 4 ( 1 − e − 4 R 2 / π ) ( 7 ) π 2 ( 1 − e − R 2 − e − 2 R 2 + e − 3 R 2 + 4 π R 2 ) < ∫ 0 R e − x 2 d x < π 2 1 − e − 4 R 2 / π ( 8 ) \begin{aligned} \frac{\pi}{4}(1-e^{-R^2} - e^{-2R^2} + e^{-3R^2 + \frac{4}{\pi}R^2}) <& (\int_0^R e^{-x^2} dx)^2 < \frac{\pi}{4}(1-e^{-4R^2/\pi}) \qquad (7)\\ \frac{\sqrt{\pi}}{2}\sqrt{(1-e^{-R^2} - e^{-2R^2} + e^{-3R^2 + \frac{4}{\pi}R^2})} <& \int_0^R e^{-x^2} dx < \frac{\sqrt{\pi}}{2}\sqrt{1-e^{-4R^2/\pi}} \qquad (8) \end{aligned} 4π(1−e−R2−e−2R2+e−3R2+π4R2)<2π(1−e−R2−e−2R2+e−3R2+π4R2)<(∫0Re−x2dx)2<4π(1−e−4R2/π)(7)∫0Re−x2dx<2π1−e−4R2/π(8)
回到(1)式
P ( u − t σ ≤ x ≤ u + t σ ) = 2 π ∫ 0 t 2 e − x 2 d x \begin{aligned} P(u-t\sigma \le x \le u+t\sigma) =\frac{2}{\sqrt{\pi}} \int_{0}^{\frac{t}{\sqrt{2}}} e^{-x^2} d x \end{aligned} P(u−tσ≤x≤u+tσ)=π2∫02te−x2dx
在不等式(8)中,取 R = t 2 R=\frac{t}{\sqrt{2}} R=2t , 得
1 − e − t 2 / 2 − e − t 2 + e − 3 t 2 / 2 + 2 t 2 / π < P ( u − t σ ≤ x ≤ u + t σ ) < 1 − e − 2 t 2 / π ( 9 ) \begin{aligned} \sqrt{1-e^{-t^2/2} - e^{-t^2} + e^{-3t^2/2 + 2t^2/\pi}} < P(u-t\sigma \le x \le u+t\sigma) < \sqrt{1-e^{-2t^2/\pi}} \qquad (9) \end{aligned} 1−e−t2/2−e−t2+e−3t2/2+2t2/π<P(u−tσ≤x≤u+tσ)<1−e−2t2/π(9)
于是写个python程序计算下
def normal_prop_lowerbound(t):
return math.sqrt(1-math.exp(-t*t/2)-math.exp(-t*t)+math.exp(-1.5*t*t+2/math.pi * t*t))
def normal_prop_upperbound(t):
return math.sqrt(1-math.exp(-2*t*t/math.pi))
if __name__ == '__main__':
print(normal_prop_lowerbound(1), "< 均值为中心1个标准差范围内的概率 <", normal_prop_upperbound(1))
print(normal_prop_lowerbound(2), "< 均值为中心2个标准差范围内的概率 <", normal_prop_upperbound(2))
print(normal_prop_lowerbound(3), "< 均值为中心3个标准差范围内的概率 <", normal_prop_upperbound(3))
程序输出:
0.6688228555159094 < 均值为中心1个标准差范围内的概率 <
0.6862377078915619
0.9370075438591285 < 均值为中心2个标准差范围内的概率 <
0.9600223595773711
0.9945801268713956 < 均值为中心3个标准差范围内的概率 <
0.998374454827675
另外,注意到,在(9)不等式中,当我们令 R
趋于正无穷,上式两端同时趋于极限1,
从而我们也验证了正态分布的概率密度函数的积分即概率确实为1.
当然在比较粗糙的(4)不等式中,令 R
趋于正无穷,也可以验证了正态分布的概率密度函数的积分即概率确实为1.
应用场景一:
有一堆数据我们想知道是否服从正态分布,我们可以通过统计1、2、3个标准差范围内的数据的概率是否大致符合0.68,0.95,0.997的概率来校验。如果不太符合这些概率,那么就不太可能是正态分布。
应用场景二:
有一堆数据假设服从正态分布,我们想知道那些数据是异常的,那么我们就可以设定t个标准差范围内的数据是正常的,即超过t个标准差的数据即
∣
x
−
u
∣
>
t
σ
|x-u| > t\sigma
∣x−u∣>tσ是异常的,取t为多少是合适的,就看我们的应用场景下的异常数据的概率有多大。
原文链接
欢迎关注我的微信公众号[数学345]:长按"识别图中二维码";或打开微信扫一扫。文章来源:https://www.toymoban.com/news/detail-470663.html
文章来源地址https://www.toymoban.com/news/detail-470663.html
到了这里,关于正态分布t个标准差范围内的概率的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!