Fisher Information(费雪信息)
定义
Fisher Information 是一种衡量“随机观测样本携带的未知参数 θ \theta θ的信息量”的方法,其中 θ \theta θ为待估计的参数。
假定观测随机变量序列为
X
1
,
X
2
,
.
.
.
,
X
3
X_1,X_2,...,X_3
X1,X2,...,X3,且都服从概率分布
f
(
X
;
θ
)
f(X;\theta)
f(X;θ),则似然函数可以表示成:
L
(
X
;
θ
)
=
∏
i
=
1
n
f
(
X
i
;
θ
)
L(\mathbf{X} ; \theta)=\prod_{i=1}^n f\left(X_i ; \theta\right)
L(X;θ)=i=1∏nf(Xi;θ)
对数似然函数对
θ
\theta
θ求导并令一阶导数为0,则可以得到
θ
\theta
θ的最大似然估计值
θ
^
\hat{\theta}
θ^。上述对数似然函数的一阶导数也称作Score function,其定义为:
S
(
X
;
θ
)
=
∑
i
=
1
n
∂
log
f
(
X
i
;
θ
)
∂
θ
=
∑
i
=
1
n
S
(
X
i
;
θ
)
S(\mathbf{X} ; \theta)=\sum_{i=1}^n \frac{\partial \log f\left(X_i ; \theta\right)}{\partial \theta}=\sum_{i=1}^n S(X_i;\theta)
S(X;θ)=i=1∑n∂θ∂logf(Xi;θ)=i=1∑nS(Xi;θ)
那么Fisher Information定义为Score function的二阶矩
I
(
θ
)
=
E
[
S
(
X
;
θ
)
2
]
I(\theta)=E\left[S(\mathbf{X} ; \theta)^2\right]
I(θ)=E[S(X;θ)2],下面对以下两点进行证明
- E [ S ( X ; θ ) ] = 0 E[S(\mathbf{X} ; \theta)]=0 E[S(X;θ)]=0
- I ( θ ) = E [ S ( X ; θ ) 2 ] − E [ S ( X ; θ ) ] 2 = Var [ S ( X ; θ ) ] I(\theta)=E\left[S(\mathbf{X} ; \theta)^2\right]-E[S(\mathbf{X} ; \theta)]^2=\operatorname{Var}[S(\mathbf{X} ; \theta)] I(θ)=E[S(X;θ)2]−E[S(X;θ)]2=Var[S(X;θ)]
证明一
因为概率密度函数
f
(
X
i
;
θ
)
f(X_i;\theta)
f(Xi;θ)有以下性质
上式两边对
θ
\theta
θ进行求导
对上式左端进行变换
证明二
由证明一,显然可得。
由证明二可以得到Fisher Information的第一条数学意义:最大似然估计的方程的方差。
进一步,如果对数似然函数二阶可导,则在一般情况下可以证明:
- I ( θ ) = E [ S ( X ; θ ) 2 ] = − E ( ∂ 2 ∂ θ 2 log L ( X ; θ ) ) I(\theta)=E\left[S(\mathbf{X} ; \theta)^2\right]=-E\left(\frac{\partial^2}{\partial \theta^2} \log L(\mathbf{X} ; \theta)\right) I(θ)=E[S(X;θ)2]=−E(∂θ2∂2logL(X;θ))
证明三
令
∂
ℓ
(
θ
;
x
)
∂
θ
=
∂
log
f
(
x
;
θ
)
∂
θ
\frac{\partial\ell \left( \theta ; x \right)}{\partial \theta} = \frac{\partial\log f \left( x ; \theta \right)}{\partial \theta}
∂θ∂ℓ(θ;x)=∂θ∂logf(x;θ),根据证明一的结论有
对上式两边同时对
θ
\theta
θ求偏导
上式左边第二项可以写为
从中可以得出
证毕。于是可以得到Fisher Information的第二条数学意义:对数似然函数在参数真实值处的负二阶导数的期望。
下面举个例子说明其数学含义,下图为一个简单的归一化伯努利对数似然函数图。
容易看出,当其平且宽的时候,代表了对参数估计的性能差,而当且坚且窄时,代表了对参数估计的性能好,也可以说信息量越大。而这个对数似然函数的负二阶导数就反映了其在顶点处的弯曲程度,弯曲程度大,对数似然函数的形状就趋近于高而窄,也表示掌握的信息越多。文章来源:https://www.toymoban.com/news/detail-730942.html
矩阵形式
现假定待估计参数为
θ
=
[
θ
1
,
θ
2
,
.
.
.
,
θ
N
]
T
\mathbf{\theta}=[\theta_1,\theta_2,...,\theta_N]^T
θ=[θ1,θ2,...,θN]T,则Fisher Information此时可以用矩阵形式表示,该矩阵称为Fisher information matrix,其中的元素可以写为以下两种形式:
[
I
(
θ
)
]
i
,
j
=
E
[
(
∂
∂
θ
i
log
f
(
X
;
θ
)
)
(
∂
∂
θ
j
log
f
(
X
;
θ
)
)
∣
θ
]
[
I
(
θ
)
]
i
,
j
=
−
E
[
∂
2
∂
θ
i
∂
θ
j
log
f
(
X
;
θ
)
∣
θ
]
\begin{equation} \begin{aligned} {[\mathbb{I}(\theta)]_{i, j} } & =E\left[\left(\frac{\partial}{\partial \theta_i} \log f(X ; \boldsymbol{\theta})\right)\left(\frac{\partial}{\partial \theta_j} \log f(X ; \boldsymbol{\theta})\right) \mid \boldsymbol{\theta}\right] \\ {[\mathbb{I}(\theta)]_{i, j} } & =-E\left[\frac{\partial^2}{\partial \theta_i \partial \theta_j} \log f(X ; \boldsymbol{\theta}) \mid \boldsymbol{\theta}\right] \end{aligned} \end{equation}
[I(θ)]i,j[I(θ)]i,j=E[(∂θi∂logf(X;θ))(∂θj∂logf(X;θ))∣θ]=−E[∂θi∂θj∂2logf(X;θ)∣θ]
下面举例说明,归一化周期频率的复数正弦信号 s(t) 的均匀采样可以表示为
x
[
n
]
=
s
[
n
]
+
w
[
n
]
=
A
exp
[
j
(
2
π
f
0
n
+
ϕ
)
]
+
w
[
n
]
=
A
~
exp
(
j
2
π
f
0
n
)
+
w
[
n
]
,
0
≤
n
≤
N
−
1
\begin{align*} x\left[ n \right] &= s\left[ n \right] + w\left[ n \right]\\ & = A\exp \left[ {j\left({2\pi {f_0}n + \phi } \right)} \right] + w\left[ n \right]\\ & = \tilde{A}\exp \left({j2\pi {f_0}n} \right) + w\left[ n \right], 0 \leq n \leq N - 1 \end{align*}
x[n]=s[n]+w[n]=Aexp[j(2πf0n+ϕ)]+w[n]=A~exp(j2πf0n)+w[n],0≤n≤N−1
其中
A
~
=
A
exp
(
j
ϕ
)
\tilde{A} = A\exp ({j\phi })
A~=Aexp(jϕ)是复幅度,
ω
[
n
]
\omega[n]
ω[n]是功率为
σ
w
2
\sigma_w^2
σw2的加性高斯白噪声。其中
A
,
f
0
,
ϕ
A,f_0,\phi
A,f0,ϕ为待估计参数。则Fisher information matrix中的第
(
i
,
j
)
(i,j)
(i,j) 个元素为
[
I
(
Θ
)
i
j
]
=
2
σ
w
2
R
e
{
∑
n
=
0
N
−
1
[
∂
s
[
n
;
Θ
]
∂
Θ
i
]
∗
[
∂
s
[
n
;
Θ
]
∂
Θ
j
]
}
\begin{equation*} \left[ {{{\bf I}}{{\left({{\bf \Theta } } \right)}_{ij}}} \right] = \frac{2}{{\sigma _w^2}}{\mathop {\rm Re}\nolimits } \left\lbrace {{{\sum \limits _{n = 0}^{N - 1} {\left[ {\frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial {\Theta _i}}}} \right]} }^*}\left[ {\frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial {\Theta _j}}}} \right]} \right\rbrace \end{equation*}
[I(Θ)ij]=σw22Re{n=0∑N−1[∂Θi∂s[n;Θ]]∗[∂Θj∂s[n;Θ]]}
其中
Θ
=
[
A
,
f
0
,
ϕ
]
T
{{\bf \Theta } } = {[A,{f_0},\phi ]^{\rm {T}}}
Θ=[A,f0,ϕ]T。他们的偏导可以表示为
∂
s
[
n
;
Θ
]
∂
A
=
exp
[
j
(
2
π
f
0
n
+
ϕ
)
]
∂
s
[
n
;
Θ
]
∂
f
0
=
j
2
π
n
A
exp
[
j
(
2
π
f
0
n
+
ϕ
)
]
∂
s
[
n
;
Θ
]
∂
ϕ
=
j
A
exp
[
j
(
2
π
f
0
n
+
ϕ
)
]
.
\begin{align*} \frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial A}} &= \exp \left[ {j\left({2\pi {f_0}n + \phi } \right)} \right] \\ \frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial {f_0}}} &= j2\pi nA\exp \left[ {j\left({2\pi {f_0}n + \phi } \right)} \right] \\ \frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial \phi }} &= jA\exp \left[ {j\left({2\pi {f_0}n + \phi } \right)} \right]. \end{align*}
∂A∂s[n;Θ]∂f0∂s[n;Θ]∂ϕ∂s[n;Θ]=exp[j(2πf0n+ϕ)]=j2πnAexp[j(2πf0n+ϕ)]=jAexp[j(2πf0n+ϕ)].
因此,FIM可以表示为
[
I
(
Θ
)
i
j
]
=
2
σ
w
2
[
N
0
0
0
A
2
∑
n
(
2
π
n
)
2
A
2
∑
n
2
π
n
0
A
2
∑
n
2
π
n
N
A
2
]
.
\begin{align*} \left[ {{{\bf I}}{{\left({{\bf \Theta } } \right)}_{ij}}} \right] &= \frac{2}{{\sigma _w^2}}\left[ {\begin{array}{ccc}N&0&0\\ 0&{{A^2}\sum \limits _n {{{\left({2\pi n} \right)}^2} } }&{{A^2}\sum \limits _n {2\pi n} }\\ 0&{{A^2}\sum \limits _n {2\pi n} }&{N{A^2}} \end{array}} \right]. \end{align*}
[I(Θ)ij]=σw22
N000A2n∑(2πn)2A2n∑2πn0A2n∑2πnNA2
.文章来源地址https://www.toymoban.com/news/detail-730942.html
到了这里,关于Fisher Information(费雪信息)详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!