引言
在本章中,我们想要找到好的未知参数的估计量。我们想在期望为真实值的估计量中找到一个最稳定的估计量,这个估计量所产生的估计值在大多数情况下是接近真实值的。本章将主要讨论最小方差无偏估计的概念,具体求解方法将在随后的章节中介绍。
无偏估计量
如果一个估计量的期望等于未知参数的真实值,那么我们称这个估计量是未知参数的无偏估计量,即如果 E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ那么估计量是无偏的。
这里,我们补充介绍一下什么是白色高斯噪声(WGN)。WGN是合理的一个噪声模型 w [ n ] w[n] w[n],即 w [ n ] w[n] w[n]的每一个样本相互独立且服从 N ( 0 , σ 2 ) \mathcal{N}(0,\sigma^2) N(0,σ2)(均值为 0 0 0,方差为 σ 2 \sigma^2 σ2的正态分布)。当模型中带有WGN时,便可以用联合高斯分布对数据的分布进行建模。
例1(判断无偏估计量) 带WGN的DC电平的无偏估计量
假设有观测
x
[
n
]
=
A
+
w
[
n
]
n
=
0
,
1
,
.
.
.
,
N
−
1
x[n]=A+w[n] \ \ n = 0,1,...,N-1
x[n]=A+w[n] n=0,1,...,N−1其中
A
A
A是要估计的参数,
w
[
n
]
w[n]
w[n]是WGN。参数
A
A
A可以取
R
\mathbb{R}
R上的任意值。那么
x
[
n
]
x[n]
x[n]的平均值是对
A
A
A的一个合理的估计
A
^
=
1
N
∑
n
=
0
N
−
1
x
[
n
]
\hat{A}=\frac{1}{N}\sum_{n=0}^{N-1}x[n]
A^=N1n=0∑N−1x[n]对其求期望,
E
(
A
^
)
=
E
[
1
N
∑
n
=
0
N
−
1
x
[
n
]
]
=
1
N
∑
n
=
0
N
−
1
E
(
x
[
n
]
)
=
1
N
∑
n
=
0
N
−
1
A
=
A
\begin{aligned} E(\hat{A})&=E\left[\frac{1}{N}\sum_{n=0}^{N-1}x[n]\right] \\ &=\frac{1}{N}\sum_{n=0}^{N-1}E(x[n]) \\ &=\frac{1}{N}\sum_{n=0}^{N-1}A \\ &= A \end{aligned}
E(A^)=E[N1n=0∑N−1x[n]]=N1n=0∑N−1E(x[n])=N1n=0∑N−1A=A因此,样本均值是参数
A
A
A的一个无偏估计。
【思考】
然而,估计量是无偏的并不意味着这个估计量就是好的,它只是保证了估计量的平均值是真实值。
但如果同时有多个估计量组合在一起时,无偏性就有着重要的意义!例如我们对同一个参数有多个估计
{
θ
^
1
,
θ
^
2
,
.
.
.
,
θ
^
n
}
\{\hat{\theta}_1,\hat{\theta}_2,...,\hat{\theta}_n\}
{θ^1,θ^2,...,θ^n}。
如果这些估计是无偏的,方差相同且互不相关,那么对这些估计的组合求平均就可以得出一个更好的估计,即
θ
^
=
1
n
∑
i
=
1
n
θ
^
i
.
\hat{\theta}=\frac{1}{n}\sum_{i=1}^n\hat{\theta}_i.
θ^=n1i=1∑nθ^i.具体来说,
E
(
θ
^
)
=
θ
E(\hat{\theta})=\theta
E(θ^)=θ且
v
a
r
(
θ
^
)
=
1
n
2
∑
i
=
1
n
v
a
r
(
θ
^
i
)
=
v
a
r
(
θ
^
1
)
n
var(\hat{\theta})=\frac{1}{n^2}\sum_{i=1}^nvar(\hat{\theta}_i)=\frac{var(\hat{\theta}_1)}{n}
var(θ^)=n21i=1∑nvar(θ^i)=nvar(θ^1)所以,估计的数量越多,方差越小,当
n
→
∞
n\to\infty
n→∞时,
θ
^
→
θ
\hat{\theta}\to\theta
θ^→θ。
如果这些估计是有偏的,即
E
(
θ
^
i
)
=
θ
+
b
(
θ
)
E(\hat{\theta}_i)=\theta+b(\theta)
E(θ^i)=θ+b(θ),那么
E
(
θ
^
)
=
1
n
∑
i
=
1
n
E
(
θ
^
i
)
=
θ
+
b
(
θ
)
E(\hat{\theta})=\frac{1}{n}\sum_{i=1}^nE(\hat{\theta}_i)=\theta+b(\theta)
E(θ^)=n1i=1∑nE(θ^i)=θ+b(θ)无论估计的数量多大,
θ
^
\hat{\theta}
θ^都不会收敛到真实值。
上图可以帮助理解这一点。
最小方差准则
我们需要一些衡量指标去判断一个估计量好与不好,一个很自然的指标就是均方误差(mean square error, MSE)准则,其定义为 m s e ( θ ^ ) = E [ ( θ ^ − θ ) 2 ] mse(\hat{\theta})=E[(\hat{\theta}-\theta)^2] mse(θ^)=E[(θ^−θ)2]它度量了估计量偏离真实值的平均偏差的统计平均值。
然而,采用这个指标导致所求的最优估计量可能是不能实现的,因为它不是只关于数据的函数。具体来说,
m
s
e
(
θ
^
)
=
E
{
[
(
θ
^
−
E
(
θ
^
)
)
+
(
E
(
θ
^
)
−
θ
)
]
2
}
=
v
a
r
(
θ
^
)
+
[
E
(
θ
^
)
−
θ
]
2
=
v
a
r
(
θ
^
)
+
b
2
(
θ
)
\begin{aligned} mse(\hat{\theta})&=E\left\{\left[\left(\hat{\theta}-E(\hat{\theta})\right)+(E(\hat{\theta})-\theta)\right]^2\right\} \\ &=var(\hat{\theta})+\left[E(\hat{\theta})-\theta\right]^2 \\ &=var(\hat{\theta})+b^2(\theta) \end{aligned}
mse(θ^)=E{[(θ^−E(θ^))+(E(θ^)−θ)]2}=var(θ^)+[E(θ^)−θ]2=var(θ^)+b2(θ)这表明MSE是由估计量的方差和偏差引起的误差组成的。例如,对于例1我们考虑一个带常数
a
a
a的修正估计量
A
ˇ
=
a
N
∑
n
=
0
N
−
1
x
[
n
]
\check{A}=\frac{a}{N}\sum_{n=0}^{N-1}x[n]
Aˇ=Nan=0∑N−1x[n]
E
(
A
ˇ
)
=
a
A
E(\check{A})=aA
E(Aˇ)=aA且
v
a
r
(
A
ˇ
)
=
a
2
σ
2
/
N
var(\check{A})=a^2\sigma^2/N
var(Aˇ)=a2σ2/N。因此,
m
s
e
(
A
ˇ
)
=
a
2
σ
2
N
+
(
a
−
1
)
2
A
2
mse(\check{A})=\frac{a^2\sigma^2}{N}+(a-1)^2A^2
mse(Aˇ)=Na2σ2+(a−1)2A2对
a
a
a求导,
d
m
s
e
(
θ
^
)
d
a
=
2
a
σ
2
N
+
2
(
a
−
1
)
A
2
\frac{dmse(\hat{\theta})}{da}=\frac{2a\sigma^2}{N}+2(a-1)A^2
dadmse(θ^)=N2aσ2+2(a−1)A2令其等于
0
0
0可得最优的
a
a
a值为
a
o
p
t
=
A
2
A
2
+
σ
2
/
N
a_{opt}=\frac{A^2}{A^2+\sigma^2/N}
aopt=A2+σ2/NA2可以看到,
a
a
a的最优值与
A
A
A有关,因此由MSE求出的最有估计量可能是不可实现的。这是由于MSE的偏差项与
A
A
A有关,由此看来任何与偏差有关的指标可能都不可以求出可以实现的估计量。
所以,在实际应用中,我们可以约束偏差为 0 0 0,从而求出方差最小的估计量,这种估计量称为最小方差无偏估计量(minimum variance unbiased estimation, MVUE)。
最小方差无偏估计量将估计量的误差 ( θ ^ − θ ) (\hat{\theta}-\theta) (θ^−θ)的PDF集中在 0 0 0附近,因此估计量误差很大的可能性很小。
扩展到矢量参数
假设
θ
=
[
θ
1
θ
2
…
θ
p
]
T
\pmb{\theta}=[\theta_1 \ \theta_2 \ \ldots \ \theta_p]^T
θ=[θ1 θ2 … θp]T是未知的矢量参数,如果估计量
θ
^
=
[
θ
^
1
θ
^
2
…
θ
^
p
]
T
\pmb{\hat{\theta}}=[\hat{\theta}_1 \ \hat{\theta}_2 \ \ldots \ \hat{\theta}_p]^T
θ^=[θ^1 θ^2 … θ^p]T对任意的
i
=
1
,
2
,
…
,
p
i=1,2,\ldots,p
i=1,2,…,p满足
E
(
θ
^
i
)
=
θ
i
E(\hat{\theta}_i)=\theta_i
E(θ^i)=θi那么我们就称
θ
^
\pmb{\hat{\theta}}
θ^是无偏的。
对于矢量参数的MVUE,我们要求对于任意的 i = 1 , 2 , … , p i=1,2,\ldots,p i=1,2,…,p, v a r ( θ ^ i ) var(\hat{\theta}_i) var(θ^i)都是最小的。
最小方差无偏估计的存在性
可惜的是,最小方差无偏估计量不一定存在。下图可以辅助我们理解这一点。如果像(a)中的情况, θ ^ 3 \hat{\theta}_3 θ^3的方差一致地小于其余所有的估计量,那么它就是 θ \theta θ的MVUE。如果出现(b)中的情况,在 θ < θ 0 \theta<\theta_0 θ<θ0时 θ ^ 2 \hat{\theta}_2 θ^2是最好的,在 θ > θ 0 \theta>\theta_0 θ>θ0时 θ ^ 3 \hat{\theta}_3 θ^3是最好的,那么就不存在 θ \theta θ的MVUE。
下面的这个例子具体说明了这一点。
例2(MVUE不存在)
如果PDF的形式随
θ
\theta
θ变化,那么最佳估计量也将随
θ
\theta
θ变化。假定我们有两个独立的观测x[0]和x[1],且PDF为
x
[
0
]
∼
N
(
θ
,
1
)
x[0]\sim\mathcal{N}(\theta,1)
x[0]∼N(θ,1)
x
[
1
]
∼
{
N
(
θ
,
1
)
,
θ
≥
0
N
(
θ
,
2
)
,
θ
<
0
x[1]\sim\left\{ \begin{aligned} \mathcal{N}(\theta,1), \ \theta\geq0 \\ \mathcal{N}(\theta,2), \ \theta<0 \end{aligned} \right.
x[1]∼{N(θ,1), θ≥0N(θ,2), θ<0我们可以构建两个估计量
θ
^
1
=
1
2
(
x
[
0
]
+
x
[
1
]
)
\hat{\theta}_1=\frac{1}{2}(x[0]+x[1])
θ^1=21(x[0]+x[1])
θ
^
2
=
2
3
x
[
0
]
+
1
3
x
[
1
]
\hat{\theta}_2=\frac{2}{3}x[0]+\frac{1}{3}x[1]
θ^2=32x[0]+31x[1]很容易证明这两个估计量是无偏的。分别计算它们的方差,
v
a
r
(
θ
^
1
)
=
1
4
(
v
a
r
(
x
[
0
]
)
+
v
a
r
(
x
[
1
]
)
)
var(\hat{\theta}_1)=\frac{1}{4}(var(x[0])+var(x[1]))
var(θ^1)=41(var(x[0])+var(x[1]))
v
a
r
(
θ
^
2
)
=
4
9
v
a
r
(
x
[
0
]
)
+
1
9
v
a
r
(
x
[
1
]
)
var(\hat{\theta}_2)=\frac{4}{9}var(x[0])+\frac{1}{9}var(x[1])
var(θ^2)=94var(x[0])+91var(x[1])所以,我们有
v
a
r
(
θ
^
1
)
=
{
18
36
,
θ
≥
0
27
36
,
θ
<
0
var(\hat{\theta}_1)=\left\{ \begin{aligned} \frac{18}{36}, \ \theta\geq0 \\ \frac{27}{36}, \ \theta<0 \end{aligned} \right.
var(θ^1)=⎩
⎨
⎧3618, θ≥03627, θ<0和
v
a
r
(
θ
^
2
)
=
{
20
36
,
θ
≥
0
24
36
,
θ
<
0
var(\hat{\theta}_2)=\left\{ \begin{aligned} \frac{20}{36}, \ \theta\geq0 \\ \frac{24}{36}, \ \theta<0 \end{aligned} \right.
var(θ^2)=⎩
⎨
⎧3620, θ≥03624, θ<0它们的方差如下图所示。根据下一章的知识,我们可以证明
θ
^
1
\hat{\theta}_1
θ^1和
θ
^
2
\hat{\theta}_2
θ^2是极大似然估计量,他们分别达到根据Cramer-Rao下限给出的
θ
≥
0
\theta\geq0
θ≥0和
θ
<
0
\theta<0
θ<0时的最小方差。所以,不存在某个单一的估计量一致地小于或等于下图显示的最小值。
求最小方差无偏估计量
即使存在MVUE,我们可能也没办法求出,因为还没有一种得到估计量的通用方法。接下来的几章我们将讨论几种可能的方法:
- Cramer-Rao下限(Cramer-Rao lower bound, CRLB),然后检查是否有某些估计量满足CRLB;
- 应用Rao-Blackwell-Lehmann-Scheffe(RBLS)定理;
- 进一步限制估计不仅是无偏的,而且还是线性的,然后在这些限制中找出最小方差估计。
方法1和方法2可能可以得到MVUE,而方法3只能在数据中的MVUE为线性时使用。
CRLB允许我们确定对于任意的无偏估计量,它的方差肯定大于等于一个给定的值,如下图所示。如果存在某个无偏估计量,它的方差严格等于CRLB,那么这个估计量一定是MVUE。当然也有可能没有一个估计量的方差等于CRLB,但依然存在MVUE。下图中的 θ ^ 1 \hat{\theta}_1 θ^1就是一个例子。因此,必须借助于RBLS定理,这种方法首先求出充分统计量(sufficient statistic),即 θ \theta θ得无偏估计量,然后对数据的PDF稍做限制,就可以保证得到MVUE。第三种方法要求估计量是线性的,然后选择出最佳线性估计量。这种方法只对某些特定的数据集能够得到MVUE。
参考文献
[1] Kay, S. M. (1993). Fundamentals of statistical signal processing: estimation theory. Prentice-Hall, Inc…文章来源:https://www.toymoban.com/news/detail-793739.html
下一章,我们将介绍Cramer-Rao下限。文章来源地址https://www.toymoban.com/news/detail-793739.html
到了这里,关于【检测与估计理论(Detection and Estimation Theory)】二、最小方差无偏估计(Minimum Variance Unbiased Estimation)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!