窗宽参数的选择方法, 一般有经验法, 插入法, 交错鉴定法等方法. 以下介绍最小二乘交错鉴定法, 并将其作为本文的窗宽选择方法.
最小二乘交错鉴定法(Least-squares cross-validation,LSCV)是是基于这样的思想, 即选取的窗宽参数值能够最小化估计函数的积分平方误差. 以下先考虑单变量的情形.
定义
f
^
(
x
)
\hat{f}(x)
f^(x)与
f
(
x
)
f(x)
f(x)之差的平方的积分为
∫
[
f
^
(
x
)
−
f
(
x
)
]
2
d
x
=
∫
f
^
(
x
)
2
d
x
−
2
∫
f
^
(
x
)
f
(
x
)
d
x
+
∫
f
(
x
)
2
d
x
\begin{equation} \int[\hat{f}(x) - f(x)]^2dx = \int\hat{f}(x)^2dx -2\int\hat{f}(x)f(x)dx +\int f(x)^2dx \end{equation}
∫[f^(x)−f(x)]2dx=∫f^(x)2dx−2∫f^(x)f(x)dx+∫f(x)2dx
式
(
4
)
(4)
(4)的右边第三项和
h
h
h无关, 所以最小化(4)等价于最小化
∫
f
^
(
x
)
2
d
x
−
2
∫
f
^
(
x
)
f
(
x
)
d
x
\begin{equation} \int\hat{f}(x)^2dx -2\int\hat{f}(x)f(x)dx \end{equation}
∫f^(x)2dx−2∫f^(x)f(x)dx
为了最小化式
(
5
)
(5)
(5), 我们先观察式
(
5
)
(5)
(5)的结构. 第一项
∫
f
^
(
x
)
2
d
x
\large \int\hat{f}(x)^2dx
∫f^(x)2dx可以用下面的式子估计:
∫
f
^
(
x
)
2
d
x
=
1
n
2
h
2
∑
i
=
1
n
∑
j
=
1
n
∫
k
(
X
i
−
x
h
)
k
(
X
j
−
x
h
)
d
x
=
1
n
2
h
∑
i
=
1
n
∑
j
=
1
n
k
ˉ
(
X
i
−
X
j
h
)
\begin{equation} \begin{aligned} \int\hat{f}(x)^2dx =& \frac{1}{n^2h^2}\sum_{i=1}^n\sum_{j=1}^n \int k(\frac{X_i-x}{h}) k(\frac{X_j-x}{h}) dx \\ =& \frac{1}{n^2h}\sum_{i=1}^n\sum_{j=1}^n\bar{k}(\frac{X_i-X_j}{h}) \end{aligned} \end{equation}
∫f^(x)2dx==n2h21i=1∑nj=1∑n∫k(hXi−x)k(hXj−x)dxn2h1i=1∑nj=1∑nkˉ(hXi−Xj)
其中 k ˉ ( v ) = ∫ k ( u ) k ( v − u ) d u \bar{k}(v) = \int k(u)k(v-u)du kˉ(v)=∫k(u)k(v−u)du称为 k ( v ) k(v) k(v)的双重卷积核. 例如, 对于标准正态核$ k(v) = \frac{1}{\sqrt{2\pi}}e{-\frac{1}{2}v2} , 其双重卷积核为 , 其双重卷积核为 ,其双重卷积核为 \bar{k}(v) = \frac{1}{\sqrt{4\pi}}e{-\frac{1}{4}v2}$, 也就是一个均值为0, 方差为2的正态概率密度函数.
而式
(
5
)
(5)
(5)的第二项中的
∫
f
^
(
x
)
f
(
x
)
d
x
\int\hat{f}(x)f(x)dx
∫f^(x)f(x)dx, 其实就是随机变量函数
f
^
(
X
)
\hat{f}(X)
f^(X)的期望, 可以写为
E
X
[
f
^
(
X
)
]
E_X[\hat{f}(X)]
EX[f^(X)]. 而对于期望, 我们可以用其样本均值对其进行估计, 也就是用下式
E
X
^
[
f
^
(
X
)
]
=
1
n
∑
i
=
1
n
f
^
−
i
(
X
i
)
\begin{equation} \hat{E_X}[\hat{f}(X)] = \frac{1}{n}\sum_{i=1}^n \hat{f}_{-i}(X_i) \end{equation}
EX^[f^(X)]=n1i=1∑nf^−i(Xi)
其中
f
^
−
i
(
X
i
)
=
1
(
n
−
1
)
h
∑
j
=
1
,
j
≠
i
n
k
(
X
i
−
X
j
h
)
\begin{equation} \hat{f}_{-i}(X_i) = \frac{1}{(n-1)h} \ \sum_{j=1, j\neq i}^n k(\frac{X_i-X_j}{h}) \end{equation}
f^−i(Xi)=(n−1)h1 j=1,j=i∑nk(hXi−Xj)
式 ( 8 ) (8) (8)称为 f ( X i ) f(X_i) f(Xi)的去一核估计量(leave-one-out kernal estimator).
因此, 我们可以将式
(
4
)
(4)
(4)定义最小二乘交错鉴定法的目标函数
C
V
f
(
h
)
=
1
n
2
h
∑
i
=
1
n
∑
j
=
1
n
k
ˉ
(
X
i
−
X
j
h
)
−
1
n
(
n
−
1
)
h
∑
j
=
1
,
j
≠
i
n
k
(
X
i
−
X
j
h
)
\begin{equation} CV_f(h) = \frac{1}{n^2h}\sum_{i=1}^n\sum_{j=1}^n\bar{k}(\frac{X_i-X_j}{h}) - \frac{1}{n(n-1)h} \ \sum_{j=1, j\neq i}^n k(\frac{X_i-X_j}{h}) \end{equation}
CVf(h)=n2h1i=1∑nj=1∑nkˉ(hXi−Xj)−n(n−1)h1 j=1,j=i∑nk(hXi−Xj)文章来源:https://www.toymoban.com/news/detail-498646.html
并将单变量KDE方法的窗宽选择转化为以下优化问题:
min
h
C
V
f
(
h
)
\begin{equation} \min \limits_h\ \ CV_f(h) \end{equation}
hmin CVf(h)文章来源地址https://www.toymoban.com/news/detail-498646.html
到了这里,关于KDE窗宽选择中的最小二乘交错间定法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!