Fisher信息与最大似然估计的渐进正态性(附有在Bernoulli分布上的计算)

这篇具有很好参考价值的文章主要介绍了Fisher信息与最大似然估计的渐进正态性(附有在Bernoulli分布上的计算)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

写在前面

最大似然估计具有很多好的性质,包括相合性,同变性,渐进正态性等。本文主要关注的是渐进正态性。渐近正态性表明,估计量的极限分布是正态分布。而该正态分布的方差,与Fisher信息有着密不可分的关系。

Fisher信息

(定义)记分函数(Score Function):
s ( X ; θ ) = ∂ l o g f ( X ; θ ) ∂ θ . s(X;\theta)=\frac{\partial logf(X;\theta)}{\partial \theta}. s(X;θ)=θlogf(X;θ).
(定义)Fisher信息量(Fisher Information):
I n ( θ ) = V ( ∑ i = 1 n s ( X i ; θ ) ) = ∑ i = 1 n V ( s ( X i ; θ ) ) \begin{aligned} I_n(\theta)&=\mathbb{V}(\sum_{i=1}^{n}s(X_i;\theta))\\ &=\sum_{i=1}^{n}\mathbb{V}(s(X_i;\theta)) \end{aligned} In(θ)=V(i=1ns(Xi;θ))=i=1nV(s(Xi;θ))
(定理)
E θ [ s ( X ; θ ) ] = 0 \mathbb{E}_\theta[s(X;\theta)]=0 Eθ[s(X;θ)]=0
证明:
E θ [ s ( X ; θ ) ] = ∫ x ∂ l o g f ( x ; θ ) ∂ θ f ( x ; θ ) d x = ∫ x 1 f ( x ; θ ) ∂ f ( x ; θ ) ∂ θ f ( x ; θ ) d x = ∫ x ∂ f ( x ; θ ) ∂ θ d x = ∂ ∂ θ ∫ x f ( x ; θ ) d x = ∂ ∂ θ 1 = 0 \begin{aligned} \mathbb{E}_\theta[s(X;\theta)] &= \int_x\frac{\partial logf(x;\theta)}{\partial \theta}f(x;\theta)dx\\ &=\int_x\frac{1}{f(x;\theta)}\frac{\partial f(x;\theta)}{\partial \theta}f(x;\theta)dx\\ &=\int_x\frac{\partial f(x;\theta)}{\partial \theta}dx\\ &=\frac{\partial}{\partial \theta} \int_xf(x;\theta)dx=\frac{\partial}{\partial \theta}1\\ &=0 \end{aligned} Eθ[s(X;θ)]=xθlogf(x;θ)f(x;θ)dx=xf(x;θ)1θf(x;θ)f(x;θ)dx=xθf(x;θ)dx=θxf(x;θ)dx=θ1=0
(定理)若 f ( X ; θ ) f(X;\theta) f(X;θ)二阶可导,则Fisher信息矩阵可以写为如下形式:
I n ( θ ) = n I ( θ ) = − n ∫ x ∂ 2 l o g f ( x ; θ ) ∂ θ 2 f ( x ; θ ) d x I_n(\theta)=nI(\theta)=-n\int_x\frac{\partial^2logf(x;\theta)}{\partial\theta^2}f(x;\theta)dx In(θ)=nI(θ)=nxθ22logf(x;θ)f(x;θ)dx
证明:
V θ [ s ( X ; θ ) ] = E θ [ s ( X ; θ ) 2 ] − E θ [ s ( X ; θ ) ] 2 = E θ [ s ( X ; θ ) 2 ] = ∫ x ∂ l o g f ( x ; θ ) ∂ θ ∂ l o g f ( x ; θ ) ∂ θ f ( x ; θ ) d x ∫ x ∂ 2 l o g f ( x ; θ ) ∂ θ 2 f ( x ; θ ) d x = ∫ x ∂ ∂ θ ( 1 f ( x ; θ ) ∂ f ( x ; θ ) ∂ θ ) d x = ∫ x − ( ∂ f ( x ; θ ) ∂ θ ) 2 f ( x ; θ ) 2 + ( ∂ 2 f ( x ; θ ) ∂ θ 2 ) f ( x ; θ ) f ( x ; θ ) d x = ∫ x − ( ∂ f ( x ; θ ) ∂ θ ) 2 f ( x ; θ ) 2 d x = − ∫ x ∂ 2 l o g f ( x ; θ ) ∂ θ 2 f ( x ; θ ) d x \begin{aligned} \mathbb{V}_\theta[s(X;\theta)] &= E_{\theta}[s(X;\theta)^2]-E_\theta[s(X;\theta)]^2\\ &= E_{\theta}[s(X;\theta)^2]\\ &= \int_x\frac{\partial logf(x;\theta)}{\partial \theta}\frac{\partial logf(x;\theta)}{\partial \theta}f(x;\theta)dx\\ \int_x\frac{\partial^2logf(x;\theta)}{\partial\theta^2}f(x;\theta)dx &= \int_x \frac{\partial}{\partial \theta}(\frac{1}{f(x;\theta)}\frac{\partial f(x;\theta)}{\partial \theta})dx\\ &=\int_x-\frac{(\frac{\partial f(x;\theta)}{\partial \theta})^2}{f(x;\theta)^2}+\frac{(\frac{\partial ^2f(x;\theta)}{\partial \theta^2})}{f(x;\theta)}f(x;\theta)dx \\ &= \int_x-\frac{(\frac{\partial f(x;\theta)}{\partial \theta})^2}{f(x;\theta)^2}dx\\ &=-\int_x\frac{\partial^2logf(x;\theta)}{\partial\theta^2}f(x;\theta)dx \end{aligned} Vθ[s(X;θ)]xθ22logf(x;θ)f(x;θ)dx=Eθ[s(X;θ)2]Eθ[s(X;θ)]2=Eθ[s(X;θ)2]=xθlogf(x;θ)θlogf(x;θ)f(x;θ)dx=xθ(f(x;θ)1θf(x;θ))dx=xf(x;θ)2(θf(x;θ))2+f(x;θ)(θ22f(x;θ))f(x;θ)dx=xf(x;θ)2(θf(x;θ))2dx=xθ22logf(x;θ)f(x;θ)dx

渐进正态性

极大似然估计具有渐进正态性
θ ^ n − θ s e → N ( 0 , 1 ) \frac{\hat{\theta}_n-\theta}{se}\rightarrow N(0,1) seθ^nθN(0,1)
其中, s e ≈ 1 I n ( θ ) ≈ 1 I n ( θ ^ ) se\approx\sqrt{\frac{1}{I_n(\theta)}}\approx\sqrt{\frac{1}{I_n(\hat{\theta})}} seIn(θ)1 In(θ^)1
证明从略,资料比较多。

由此可以构建估计的置信区间。

Bernoulli分布的最大似然估计及其方差

X 1 , ⋯   , X n ∼ B e r n o u l l i ( p ) X_1, \cdots,X_n \sim Bernoulli(p) X1,,XnBernoulli(p),则其似然函数是 L ( p ) = ∏ i = 1 n p X i ( 1 − p ) 1 − X i L(p)=\prod_{i=1}^{n} p^{X_i}(1-p)^{1-X_i} L(p)=i=1npXi(1p)1Xi l o g L ( p ) = ∑ i n X i l o g p + ( 1 − X i ) l o g ( 1 − p ) logL(p)=\sum_{i}^{n}X_ilogp+(1-X_i)log(1-p) logL(p)=inXilogp+(1Xi)log(1p)
最大化对数似然,就得到:
d d x l o g L ( p ) = 0 ∑ i n X i 1 p − ( 1 − X i ) 1 1 − p = 0 p = 1 n ∑ i = 1 n X i \begin{aligned} &\frac{d}{dx}logL(p)=0\\ &\sum_{i}^{n}X_i \frac{1}{p}-(1-X_i) \frac{1}{1-p}=0\\ &p=\frac{1}{n}\sum_{i=1}^{n}X_i \end{aligned} dxdlogL(p)=0inXip1(1Xi)1p1=0p=n1i=1nXi
其记分函数是:
∂ l o g L ( p ) ∂ p = X p − 1 − X 1 − p \frac{\partial logL(p)}{\partial p}=\frac{X}{p}-\frac{1-X}{1-p} plogL(p)=pX1p1X
I ( p ) = − E θ [ d ( X p − 1 − X 1 − p ) d p ] = 1 1 − p + 1 p = 1 p ( 1 − p ) I(p)=-E_\theta[\frac{d(\frac{X}{p}-\frac{1-X}{1-p})}{dp}]=\frac{1}{1-p}+\frac{1}{p}\\=\frac{1}{p(1-p)} I(p)=Eθ[dpd(pX1p1X)]=1p1+p1=p(1p)1
I n ( p ) = n I ( p ) I_n(p)=nI(p) In(p)=nI(p),估计的方差 V ( p ) = n p ( 1 − p ) ≈ n p ^ ( 1 − p ^ ) V(p)=np(1-p) \approx n\hat{p}(1-\hat{p}) V(p)=np(1p)np^(1p^)文章来源地址https://www.toymoban.com/news/detail-492607.html

到了这里,关于Fisher信息与最大似然估计的渐进正态性(附有在Bernoulli分布上的计算)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • R语言随机波动模型SV:马尔可夫蒙特卡罗法MCMC、正则化广义矩估计和准最大似然估计上证指数收益时间序列

    本文详细介绍了如何使用R语言进行随机波动模型SV的模拟和估计,包括马尔可夫蒙特卡罗法(MCMC)、正则化广义矩估计法和准最大似然估计法。

    2024年02月10日
    浏览(44)
  • 似然与极大似然估计

    在统计学中, 似然性(likelihood) ”和“ 概率 ”有明确的区分: 概率,用于在已知一些参数的情况下,预测接下来在观测上所得到的结果; 似然性,则是用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值。 以高斯分布为例,其可以用参数μ和σ来描述。

    2024年02月14日
    浏览(36)
  • Shapiro-Wilk正态性检验(Shapiro和Wilk于1965年提出)

    Shapiro-Wilk正态性检验 是一种用于确定数据集是否服从正态分布的统计方法。它基于Shapiro和Wilk于1965年提出的检验统计量。以下是其基本原理和用途: 基本原理: 零假设(Null Hypothesis) :Shapiro-Wilk检验的零假设是数据集来自于正态分布。这意味着,如果数据确实服从正态分布

    2024年02月07日
    浏览(22)
  • 极大似然估计

    重新梳理一下,之前对极大似然估计的看法还是太浅了。极大似然估计比较简单,关键是弄清思想。 之前说到极大似然估计,就会直接举例子说明,例如之前的文章关于GMM中的数学基础中就提到过。 例一,有两个完全一样的箱子,箱子甲中有99个黑球,1个白球,箱子乙中有

    2023年04月09日
    浏览(33)
  • 二项分布的极大似然估计

    笔记来源:Maximum Likelihood for the Binomial Distribution, Clearly Explained!!! P ( x ∣ n , p ) P(x|n,p) P ( x ∣ n , p ) 计算二项分布的极大似然估计 L ( p ∣ n , x ) L(p|n,x) L ( p ∣ n , x )

    2024年02月11日
    浏览(47)
  • 最小二乘法,极大似然估计,交叉熵的公式推导

    最小二乘法、极大似然估计和交叉熵是常用的三种损失函数。 最小二乘法是一种回归问题中常用的损失函数,用于衡量预测值与实际值之间的误差平方和。它常用于线性回归问题中,目标是最小化预测值与真实值之间的均方误差(MSE)。 极大似然估计(Maximum Likelihood Estima

    2024年02月08日
    浏览(32)
  • 【人工智能】— 逻辑回归分类、对数几率、决策边界、似然估计、梯度下降

    考虑二分类问题,其中每个样本由一个特征向量表示。 直观理解:将特征向量 x text{x} x 映射到一个实数 w T x text{w}^Ttext{x} w T x 一个正的值 w T x text{w}^Ttext{x} w T x 表示 x text{x} x 属于正类的可能性较高。 一个负的值 w T x text{w}^Ttext{x} w T x 表示 x text{x} x 属于负类的可能性

    2024年02月09日
    浏览(34)
  • 最大似然法

    任务描述 本关任务:理解最大似然法的基本原理并解决实际问题。 相关知识 为了完成本关任务,你需要: 理解极大似然原理; 理解并掌握极大似然法的数学模型。 极大似然原理 最大似然法是建立在极大似然原理的基础上的一个统计方法。极大似然原理可以这么描述:一个

    2024年02月09日
    浏览(63)
  • Fisher Information(费雪信息)详解

    定义 Fisher Information 是一种衡量“随机观测样本携带的未知参数 θ theta θ 的信息量”的方法,其中 θ theta θ 为待估计的参数。 假定观测随机变量序列为 X 1 , X 2 , . . . , X 3 X_1,X_2,...,X_3 X 1 ​ , X 2 ​ , ... , X 3 ​ ,且都服从概率分布 f ( X ; θ ) f(X;theta) f ( X ; θ ) ,则似然函数可

    2024年02月07日
    浏览(42)
  • 【考研数学】概率论与数理统计 —— 第七章 | 参数估计(2,参数估计量的评价、正态总体的区间估计)

    设 X X X 为总体, ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,cdots ,X_n) ( X 1 ​ , X 2 ​ , ⋯ , X n ​ ) 为来自总体 X X X 的简单随机样本, θ theta θ 为未知参数,设 θ ^ = φ ( X 1 , X 2 , ⋯   , X n ) widehat{theta}=varphi(X_1,X_2,cdots,X_n) θ = φ ( X 1 ​ , X 2 ​ , ⋯ , X n ​ ) 为参数 θ theta θ 的一个点估

    2024年02月06日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包