大数定律&中心极限定理

这篇具有很好参考价值的文章主要介绍了大数定律&中心极限定理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.切比雪夫不等式

切比雪夫不等式可以对随机变量偏离期望值的概率做出估计,这是大数定律的推理基础。以下介绍一个对切比雪夫不等式的直观证明。

1.1 示性函数

对于随机事件A,我们引入一个示性函数 I A = { 1 , A发生 0 , A不发生 I_A=\begin{cases} 1&,\text{A发生} \\ 0&,\text{A不发生} \end{cases} IA={10,A发生,A不发生,即一次实验中,若 A A A发生了,则 I I I的值为1,否则为0。

现在思考一个问题:这个函数的自变量是什么?

我们知道,随机事件在做一次试验后有一个确定的观察结果,称这个观察结果为样本点 ω \omega ω,所有可能的样本点的集合称为样本空间$\Omega =\left { \omega \right } ,称 ,称 ,称\Omega 的一个子集 的一个子集 的一个子集A$为随机事件。

例如,掷一个六面骰子,记得到数字 k k k的样本点为 ω k \omega_k ωk,则 Ω = { ω 1 , ω 2 , ω 3 , ω 4 , ω 5 , ω 6 } \Omega = \{\omega_1,\omega_2,\omega_3,\omega_4,\omega_5,\omega_6\} Ω={ω1,ω2,ω3,ω4,ω5,ω6},随机事件“得到的数字为偶数”为 A = { ω 2 , ω 4 , ω 6 } A = \{\omega_2,\omega_4,\omega_6\} A={ω2,ω4,ω6}

由此可知,示性函数是关于样本点的函数,即
I A ( ω ) = { 1 , ω ∈ A 0 , ω ∉ A (试验后) I_A(\omega)=\begin{cases} 1&,\omega \in A \\ 0&,\omega \notin A \end{cases} \text {(试验后)} IA(ω)={10,ωA,ω/A(试验后)

在试验之前,我们能获得哪个样本点也是未知的,因此样本点也是个随机事件,记为 ξ \xi ξ,相应的示性函数可以记为
I A = { 1 , ξ ∈ A 0 , ξ ∉ A (试验前) I_A=\begin{cases} 1&,\xi \in A \\ 0&,\xi \notin A \end{cases} \text {(试验前)} IA={10,ξA,ξ/A(试验前)

在试验之前, I I I的值也是未知的,因此 I I I是个二值随机变量。这样,我们就建立了随机事件 A A A和随机变量 I I I之间的一一对应关系。

I I I求数学期望可得
E I A = 1 × P ( ξ ∈ A ) + 0 × P ( ξ ∉ A ) = P ( ξ ∈ A ) \mathbb{E}I_A=1 \times P(\xi \in A) + 0 \times P(\xi \notin A)=P(\xi \in A) EIA=1×P(ξA)+0×P(ξ/A)=P(ξA)

P ( ξ ∈ A ) P(\xi \in A) P(ξA)是什么?是样本点落在 A A A里面的概率,也就是 A A A事件发生的概率 P ( A ) P(A) P(A),由此我们就得到了示性函数很重要的性质:其期望值正是对应的随机事件的概率,即
E I A = P ( A ) \mathbb{E}I_A=P(A) EIA=P(A)

1.2 马尔科夫不等式

对于非负的随机变量 X X X和定值 a a a,考虑随机事件 A = { X ≥ a } A=\{X \ge a\} A={Xa},我们可以画出示性函数 I A I_A IA关于观察值 x x x的图像,如图所示:
大数定律&中心极限定理,统计学,概率论,机器学习,人工智能,数据挖掘,算法

容易发现 I X ≥ a ( x ) ≤ x a I_{X \ge a}(x) \le \frac{x}{a} IXa(x)ax恒成立。把 x x x换为随机变量 X X X,再对该式取数学期望得
E I X ≥ a = P ( X ≥ a ) ≤ E X a \mathbb{E}I_{X \ge a}=P(X \ge a) \le \frac{\mathbb{E}X}{a} EIXa=P(Xa)aEX
称该不等式为马尔科夫Markov不等式

从理解上说,如果非负随机变量 X X X的期望存在,则 X X X超过某个定值 a a a的概率不超过 E a \frac{\mathbb{E}}{a} aE。举个简单的例子:如果我们知道所有人收入的平均数 a a a,那么随机抽一个人收入超过 10 a 10a 10a的概率不超过 10 % 10\% 10%

根据图中两个函数的差距,我们大致能理解这个不等式对概率的估计时比较粗超的。

1.3 切比雪夫不等式

对于随机变量 X X X,记 μ = E X \mu = \mathbb{E}X μ=EX,考虑随机事件 A = { ∣ X − μ ∣ ≥ a } A=\{|X-\mu|\ge a\} A={Xμa},其示性函数的图像如图所示:
大数定律&中心极限定理,统计学,概率论,机器学习,人工智能,数据挖掘,算法

易知 I ∣ X − μ ∣ ≥ a ≤ ( x − μ ) 2 a 2 I_{|X-\mu|\ge a}\le \frac{{(x-\mu)}^2}{a^2} IXμaa2(xμ)2恒成立。将该式 x x x换成 X X X并取数学期望得
E I ∣ X − μ ∣ ≥ a = P ( ∣ X − μ ∣ ≥ a ) ≤ D X a 2 \mathbb{E}I_{|X-\mu|\ge a}=P(|X-\mu|\ge a)\le \frac{\mathbb{D}X}{a^2} EIXμa=P(Xμa)a2DX
称上面这个不等式为切比雪夫Chebyshev不等式

从理解上来说,如果随机变量 X X X的期望和方差存在,则 X X X和期望值的距离大于 a a a的概率不超过 D X a 2 \frac{\mathbb{D}X}{a^2} a2DX,给定的范围越大( a a a越大),或 X X X的方差越小,则偏离的概率越小,这和直觉是相符的。

同样的,切比雪夫不等式对概率的估计也比较粗糙。


2. 大数定律

对于一系列随机变量 { X n } \{X_n\} {Xn},设每个随机变量都有期望。由于随机变量之和 ∑ i = 1 n X i \sum_{i=1}^{n}X_i i=1nXi很有可能发散到无穷大,我们转而考虑随机变量的均值 X ˉ n = 1 n ∑ i = 1 n X i {\bar{X}_n}=\frac{1}{n}\sum_{i=1}^{n}X_i Xˉn=n1i=1nXi和其期望 E ( X ˉ n ) \mathbb{E}({\bar{X}_n}) E(Xˉn)之间的距离。若 { X n } \{X_n\} {Xn}满足一定条件,当 n n n足够大时,这个距离会以非常大的概率接近0,这就是大数定律的主要思想。

定义:
任取 ε > 0 \varepsilon >0 ε>0,若恒有 lim ⁡ n → ∞ P ( ∣ X ˉ n − E X ˉ n ∣ < ε ) = 1 \lim_{n \to \infty} P(\left | \bar{X}_n-\mathbb{E}\bar{X}_n \right | < \varepsilon )=1 limnP( XˉnEXˉn <ε)=1,称 { X n } \{X_n\} {Xn}服从(弱)大数定律,称 X ˉ n \bar{X}_n Xˉn依概率收敛于 E ( X ˉ n ) \mathbb{E}({\bar{X}_n}) E(Xˉn),记作
X ˉ n ⟶ P E ( X ˉ n ) \bar{X}_n\overset{P}{\longrightarrow} \mathbb{E}({\bar{X}_n}) XˉnPE(Xˉn)

2.1 马尔可夫大数定律

任取 ε > 0 \varepsilon >0 ε>0,由切比雪夫不等式可知
P ( ∣ X ˉ n − E X ˉ n ∣ < ε ) ≥ 1 − D ( X ˉ n ) ε 2 P(\left | \bar{X}_n-\mathbb{E}\bar{X}_n \right | < \varepsilon )\ge 1-\frac{\mathbb{D}({\bar{X}_n})}{{\varepsilon}^2} P( XˉnEXˉn <ε)1ε2D(Xˉn)
= 1 − 1 ε 2 n 2 D ( ∑ i = 1 n X i ) =1-\frac{1}{{\varepsilon}^2n^2}\mathbb{D}(\sum_{i=1}^{n}X_i) =1ε2n21D(i=1nXi)
由此得到马尔可夫大数定律:
如果 lim ⁡ n → ∞ 1 n 2 D ( ∑ i = 1 n X i ) = 0 \lim_{n \to \infty}\frac{1}{n^2}\mathbb{D}(\sum_{i=1}^{n}X_i)=0 limnn21D(i=1nXi)=0,则 { X n } \{X_n\} {Xn}服从大数定律。

2.2 切比雪夫大数定律

在马尔可夫大数定律的基础上,如果 { X n } \{X_n\} {Xn}两两不相关,则方差可以拆开:
1 n 2 D ( ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n D X i \frac{1}{n^2}\mathbb{D}(\sum_{i=1}^{n}X_i)=\frac{1}{n^2}\sum_{i=1}^{n}\mathbb{D}X_i n21D(i=1nXi)=n21i=1nDXi
如果 D X i \mathbb{D}X_i DXi有共同的上界c,则
1 n 2 D ( ∑ i = 1 n X i ) ≤ n c n 2 = c n \frac{1}{n^2}\mathbb{D}(\sum_{i=1}^{n}X_i)\le \frac{nc}{n^2}=\frac{c}{n} n21D(i=1nXi)n2nc=nc
P ( ∣ X ˉ n − E X ˉ n ∣ < ε ) ≥ 1 − c ε 2 n P(\left | \bar{X}_n-\mathbb{E}\bar{X}_n \right | < \varepsilon )\ge 1-\frac{c}{{\varepsilon}^2n} P( XˉnEXˉn <ε)1ε2nc
由此得到切比雪夫大数定律:
如果 { X n } \{X_n\} {Xn}两两不相关,且方差有共同的上界,则 { X n } \{X_n\} {Xn}两两不相关服从大数定律。


3. 中心极限定理

大数定律研究的是一系列随机变量 { X n } \{X_n\} {Xn}的均值 X ˉ n = 1 n ∑ i = 1 n X i {\bar{X}_n}=\frac{1}{n}\sum_{i=1}^{n}X_i Xˉn=n1i=1nXi是否会依概率收敛于其期望 E ( X ˉ n ) \mathbb{E}({\bar{X}_n}) E(Xˉn)这个数值,而中心极限定理进一步研究 X ˉ n {\bar{X}_n} Xˉn服从什么分布。若 { X n } \{X_n\} {Xn}满足一定的条件,当 n n n足够大时, X ˉ n {\bar{X}_n} Xˉn服从正态分布,这就是中心极限定理的主要思想,这也体现了正态分布的重要性和普遍性。

3.1 独立同分布中心极限定理(林德贝格-勒维)

如果 { X n } \{X_n\} {Xn}独立同分布,且 E X = μ \mathbb{E}X=\mu EX=μ D X = σ 2 > 0 \mathbb{D}X={\sigma}^2>0 DX=σ2>0,则 n n n足够大时 X ˉ n {\bar{X}_n} Xˉn近似服从正态分布 N ( μ , σ 2 n ) N(\mu, \frac{{\sigma}^2}{n}) N(μ,nσ2),即
lim ⁡ x → ∞ P ( X ˉ n − μ σ / n < a ) = Φ ( a ) = ∫ − ∞ a 1 2 π e − t 2 / 2 d t \lim_{x \to \infty} P(\frac{{\bar X}_n-\mu}{\sigma / \sqrt{n}}<a)=\Phi (a)=\int_{-\infty}^{a}\frac{1}{\sqrt{2\pi}}e^{-t^2/2}dt xlimP(σ/n Xˉnμ<a)=Φ(a)=a2π 1et2/2dt文章来源地址https://www.toymoban.com/news/detail-767243.html

到了这里,关于大数定律&中心极限定理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数学模型在人工智能中的使用:统计学和概率论

    数学模型在人工智能中的使用:统计学和概率论 随着人工智能技术的发展,数学模型的重要性越来越突出。数学模型可以帮助人工智能

    2024年02月16日
    浏览(36)
  • 【概率论】中心极限定理(一)

    假设有同一批次的产品,每件产品的重量是随机的,其平均重量是 50 公斤,标准差是 5 公斤。现用最大载重为 5 吨的汽车来运载该产品,试用中心极限定理说明,若要以 0.99 的概率保证不超载,每辆汽车最多可以装载( C )件产品。 A. 90 B. 95 C. 98 D. 100 解析: ① E ( X i ) = 5

    2024年02月08日
    浏览(31)
  • 通俗讲解 依概率收敛,大数定理和中心极限定理

    首先说一下结论, 依概率收敛 是一种基础证明工具,可以类比到高数中的 极限定义 ,将一种直觉上的 “逼近某个数” 用数学公式来定义,这有利于严谨的证明。与极限定义不同,之所以叫 依概率收敛 ,我的理解是因为随机变量是一种有概率的值,它会在概率的意义上逼

    2024年02月15日
    浏览(29)
  • 【算法原理和代码实战】德州扑克计算概率4-2法则原理(基于概率论和统计学的基本原理),详细计算步骤,具体算法代码实例。

    德州扑克计算概率的4-2法则是一种简便的计算方法,用于估算在德州扑克中获得某种牌型的概率。4-2法则的原理是基于概率论和统计学的基本原理,通过观察德州扑克中的牌型组合和可能性,得出一个简单的计算公式。 在德州扑克的前三张公共牌(翻牌圈)之后,如果你需要

    2024年02月14日
    浏览(26)
  • AI人工智能中的概率论与统计学原理与Python实战:隐马尔可夫模型(HMM)的理解与实现...

    随着人工智能技术的不断发展,人工智能已经成为了许多行业的核心技术之一。在人工智能中,概率论和统计学是非常重要的一部分,它们可以帮助我们更好地理解和解决问题。在本文中,我们将讨论概率论与统计学原理在人工智能中的应用,以及如何使用Python实现隐马尔可

    2024年04月10日
    浏览(41)
  • AI人工智能中的概率论与统计学原理与Python实战:35. Python实现量子计算与量子机器学习...

    量子计算和量子机器学习是人工智能领域的一个重要分支,它们利用量子物理现象来解决一些传统计算方法无法解决的问题。量子计算的核心是量子比特(qubit),它可以存储多种信息,而不是传统的二进制比特(bit)。量子机器学习则利用量子计算的优势,为机器学习问题提供更

    2024年04月14日
    浏览(49)
  • 【概率论】大数定律

    概要:首先介绍了切比雪夫不等式,然后介绍大数定律概念和3种大数定律及证明。 切比雪夫不等式 已知随机变量X的期望EX和方差DX,对 ,可得 的一个上界。 解释: 不论X服从什么分布,X在E(x)的 ε 邻域内取值的概率不小于 1- D x ε2 。 证明: 本质: 随机变量X偏离E(X)越大,则

    2024年02月04日
    浏览(25)
  • 统计学 - 数理统计与应用统计的区别

    目录 1. 概率与统计 2. 数理统计与应用统计 概率论是研究随机现象数量规律的数学分支。随机现象是相对于决定性现象而言的,在一定条件下必然发生某一结果的现象称为决定性现象。例如在标准大气压,纯水加热到100℃时水必然会沸腾等。随机现象则是指在基本条件不变的

    2024年02月13日
    浏览(42)
  • 《SPSS统计学基础与实证研究应用精解》视频讲解:SPSS依托统计学处理数据的应用场景

    《SPSS统计学基础与实证研究应用精解》1.4 视频讲解 视频为 《SPSS统计学基础与实证研究应用精解》张甜 杨维忠著 清华大学出版社 一书的随书赠送视频讲解1.4节内容 。本书已正式出版上市,当当、京东、淘宝等平台热销中,搜索书名即可。本书旨在手把手教会使用SPSS撰写实

    2024年01月23日
    浏览(41)
  • 统计学期末复习整理

    统计学:描述统计学和推断统计学。计量尺度:定类尺度、定序尺度、定距尺度、定比尺度。 描述统计中的测度: 1.数据分布的集中趋势 2.数据分布的离散程度 3.数据分布的形状。 离散系数 也称为标准差系数,通常是用一组数据的标准差与其平均数之比计算 C . V . = s x ‾

    2024年02月07日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包