Fisher Information（费雪信息）详解-Toy模板网

这篇具有很好参考价值的文章主要介绍了Fisher Information（费雪信息）详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Fisher Information（费雪信息）

定义

Fisher Information 是一种衡量“随机观测样本携带的未知参数 $\theta$ 的信息量”的方法，其中 $\theta$ 为待估计的参数。

假定观测随机变量序列为 $X_1,X_2,...,X_3$ ，且都服从概率分布 $f(X;\theta)$ ，则似然函数可以表示成：
$L(\mathbf{X} ; \theta)=\prod_{i=1}^n f\left(X_i ; \theta\right)$
对数似然函数对 $\theta$ 求导并令一阶导数为0，则可以得到 $\theta$ 的最大似然估计值 $\hat{\theta}$ 。上述对数似然函数的一阶导数也称作Score function，其定义为：
$S(\mathbf{X} ; \theta)=\sum_{i=1}^n \frac{\partial \log f\left(X_i ; \theta\right)}{\partial \theta}=\sum_{i=1}^n S(X_i;\theta)$
那么Fisher Information定义为Score function的二阶矩 $I(\theta)=E\left[S(\mathbf{X} ; \theta)^2\right]$ ，下面对以下两点进行证明

$E[S(\mathbf{X} ; \theta)]=0$
$I(\theta)=E\left[S(\mathbf{X} ; \theta)^2\right]-E[S(\mathbf{X} ; \theta)]^2=\operatorname{Var}[S(\mathbf{X} ; \theta)]$

证明一

因为概率密度函数 $f(X_i;\theta)$ 有以下性质
fisher information,概率论,机器学习,算法
上式两边对 $\theta$ 进行求导

对上式左端进行变换

证明二

由证明一，显然可得。

由证明二可以得到Fisher Information的第一条数学意义：最大似然估计的方程的方差。

进一步，如果对数似然函数二阶可导，则在一般情况下可以证明：

$I(\theta)=E\left[S(\mathbf{X} ; \theta)^2\right]=-E\left(\frac{\partial^2}{\partial \theta^2} \log L(\mathbf{X} ; \theta)\right)$

证明三

令 $\frac{\partial\ell \left( \theta ; x \right)}{\partial \theta} = \frac{\partial\log f \left( x ; \theta \right)}{\partial \theta}$ ，根据证明一的结论有
fisher information,概率论,机器学习,算法
对上式两边同时对 $\theta$ 求偏导

上式左边第二项可以写为

从中可以得出
fisher information,概率论,机器学习,算法

证毕。于是可以得到Fisher Information的第二条数学意义：对数似然函数在参数真实值处的负二阶导数的期望。

下面举个例子说明其数学含义，下图为一个简单的归一化伯努利对数似然函数图。

fisher information,概率论,机器学习,算法

容易看出，当其平且宽的时候，代表了对参数估计的性能差，而当且坚且窄时，代表了对参数估计的性能好，也可以说信息量越大。而这个对数似然函数的负二阶导数就反映了其在顶点处的弯曲程度，弯曲程度大，对数似然函数的形状就趋近于高而窄，也表示掌握的信息越多。

矩阵形式

现假定待估计参数为 $\mathbf{\theta}=[\theta_1,\theta_2,...,\theta_N]^T$ ，则Fisher Information此时可以用矩阵形式表示，该矩阵称为Fisher information matrix，其中的元素可以写为以下两种形式：
$\begin{equation} \begin{aligned} {[\mathbb{I}(\theta)]_{i, j} } & =E\left[\left(\frac{\partial}{\partial \theta_i} \log f(X ; \boldsymbol{\theta})\right)\left(\frac{\partial}{\partial \theta_j} \log f(X ; \boldsymbol{\theta})\right) \mid \boldsymbol{\theta}\right] \\ {[\mathbb{I}(\theta)]_{i, j} } & =-E\left[\frac{\partial^2}{\partial \theta_i \partial \theta_j} \log f(X ; \boldsymbol{\theta}) \mid \boldsymbol{\theta}\right] \end{aligned} \end{equation}$
下面举例说明，归一化周期频率的复数正弦信号 s(t) 的均匀采样可以表示为
$\begin{align*} x\left[ n \right] &= s\left[ n \right] + w\left[ n \right]\\ & = A\exp \left[ {j\left({2\pi {f_0}n + \phi } \right)} \right] + w\left[ n \right]\\ & = \tilde{A}\exp \left({j2\pi {f_0}n} \right) + w\left[ n \right], 0 \leq n \leq N - 1 \end{align*}$
其中 $\tilde{A} = A\exp ({j\phi })$ 是复幅度， $\omega[n]$ 是功率为 $\sigma_w^2$ 的加性高斯白噪声。其中 $A，f_0,\phi$ 为待估计参数。则Fisher information matrix中的第 $(i, j)$ 个元素为
$\begin{equation*} \left[ {{{\bf I}}{{\left({{\bf \Theta } } \right)}_{ij}}} \right] = \frac{2}{{\sigma _w^2}}{\mathop {\rm Re}\nolimits } \left\lbrace {{{\sum \limits _{n = 0}^{N - 1} {\left[ {\frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial {\Theta _i}}}} \right]} }^*}\left[ {\frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial {\Theta _j}}}} \right]} \right\rbrace \end{equation*}$
其中 ${{\bf \Theta } } = {[A,{f_0},\phi ]^{\rm {T}}}$ 。他们的偏导可以表示为
$\begin{align*} \frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial A}} &= \exp \left[ {j\left({2\pi {f_0}n + \phi } \right)} \right] \\ \frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial {f_0}}} &= j2\pi nA\exp \left[ {j\left({2\pi {f_0}n + \phi } \right)} \right] \\ \frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial \phi }} &= jA\exp \left[ {j\left({2\pi {f_0}n + \phi } \right)} \right]. \end{align*}$
因此，FIM可以表示为
$\begin{align*} \left[ {{{\bf I}}{{\left({{\bf \Theta } } \right)}_{ij}}} \right] &= \frac{2}{{\sigma _w^2}}\left[ {\begin{array}{ccc}N&0&0\\ 0&{{A^2}\sum \limits _n {{{\left({2\pi n} \right)}^2} } }&{{A^2}\sum \limits _n {2\pi n} }\\ 0&{{A^2}\sum \limits _n {2\pi n} }&{N{A^2}} \end{array}} \right]. \end{align*}$ 文章来源地址https://www.toymoban.com/news/detail-730942.html