【考研数学】概率论与数理统计 —— 第七章 | 参数估计（1，基本概念及点估计法）-Toy模板网

这篇具有很好参考价值的文章主要介绍了【考研数学】概率论与数理统计 —— 第七章 | 参数估计（1，基本概念及点估计法）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

引言

我们之前学了那么多分布，如正态分布 $N(\mu,\sigma^2)$ ，泊松分布 $P(\lambda)$ 等等，都是在已知 $\mu,\sigma,\lambda$ 的情况下。那这些值是怎么来的呢？参数估计便可以帮助我们回答这一问题。

一、参数估计的概念

所谓参数估计，即总体 $X$ 的分布已知，但其中分布中含有未知参数 $\theta$ （或多个参数），从总体 $X$ 中取简单随机样本 $(X_1,X_2,\cdots,X_n)$ ，且 $(x_1,x_2,\cdots,x_n)$ 为样本观察值，利用样本对参数进行估计，称为参数估计。参数估计可分为点估计和区间估计。

二、参数的点估计

设总体 $X$ 的分布已知，但其中分布中含有未知参数，从总体 $X$ 中取简单随机样本 $(X_1,X_2,\cdots,X_n)$ ，且 $(x_1,x_2,\cdots,x_n)$ 为其观察值。若用统计量 $\widehat{\theta}(X_1,X_2,\cdots,X_n)$ 估计参数 $\theta$ ，称其为参数 $\theta$ 的估计量（本质上是一个随机变量），将样本观察值代入，称 $\widehat{\theta}(x_1,x_2,\cdots,x_n)$ 为参数 $\theta$ 的估计值（本质上是一个常数）。

常见的点估计法有矩估计法和最大似然估计法。

2.1 矩估计法

1. 矩估计的基本思想

设总体为 $X$ ， $(X_1,X_2,\cdots,X_n)$ 为来自总体的简单随机样本，称

$\mu_k=E(X^k)(k=1,2,\cdots)$ 为总体 $X$ 的 $k$ 阶原点矩；

$A_k=\frac{1}{n}\sum X_i^k(k=1,2,\cdots)$ 为样本的 $k$ 阶原点矩，特别地， $A_1=\overline{X}$ ；

$B_k=\frac{1}{n}\sum (X_i-\overline{X})^k(k=1,2,\cdots)$ 为样本的 $k$ 阶中心距。

矩估计法的依据就是大数定律，由独立同分布的大数定律，有 $A_k$ 依概率收敛于 $\mu_k(k=1,2,\cdots).$

2. 矩估计法的基本步骤

$Caes\space I:$ 含有一个参数 $\theta$

第一步，求 $E (X)$ 或 $E(X^2)$ ；

第二步，令 $E(X)=\overline{X}$ 或 $E(X^2)=A_2$ ，解出 $\theta$ 的表达式，将观察值代入即得到估计值。

$Case\space II:$ 含有两个参数 $\theta_1,\theta_2$

第一步，求 $E (X)$ ， $E(X^2)$ ；

第二步，令 $E(X)=\overline{X},E(X^2)=A_2,D(X)=B_2$ ，解出 $\theta_1,\theta_2$ 的表达式，将观察值代入即得到估计值。

【例】设总体 $X\sim N(\mu,\sigma^2)$ ， $(X_1,X_2,\cdots,X_n)$ 为来自总体的简单随机样本。（1）设 $\mu=2$ ，求参数 $\sigma^2$ 的矩估计量；（2）设 $\mu$ 未知，求参数 $\sigma^2$ 的矩估计量。

解：（1） $E(X)=2,E(X^2)=D(X)+[E(X)]^2=\sigma^2+4$ 。令 $\sigma^2+4=A_2=\frac{1}{n}\sum X_i^2$ 得 $\widehat{\sigma}^2=\frac{1}{n}\sum_{i=1}^nX_i^2-4.$ （2） $E(X)=\mu,E(X^2)=\sigma^2+\mu^2$ 。令 $E(X)=\overline{X},E(X^2)=A_2$ ，可计算得到矩估计量： $\widehat{\sigma}^2=\frac{1}{n}\sum_{i=1}^nX_i^2-\overline{X}^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2.$ 对于第二问结果的变换，我们可以把 $\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2$ 拆开，写成 $\frac{1}{n}\sum_{i=1}^n(X_i^2-2X_i\overline{X}+\overline{X}^2)=\frac{1}{n}\bigg(\sum_{i=1}^nX_i^2-2\overline{X}\sum_{i=1}^nX_i+n\overline{X}^2\bigg)=\frac{1}{n}\sum_{i=1}^nX_i^2-\overline{X}^2.$

2.2 最大似然估计法

设总体为 $X$ ， $(X_1,X_2,\cdots,X_n)$ 为来自总体的简单随机样本， $(x_1,x_2,\cdots,x_n)$ 为其观察值。样本 $(X_1,X_2,\cdots,X_n)$ 取 $(x_1,x_2,\cdots,x_n)$ 的概率成为似然函数，记为 $L(\theta)$ 或 $L(\theta_1,\theta_2)$ 。

$Case I: \pmb{Case\space I:}$ 总体 $X$ 为离散型（分布律已知，但未知参数）

第一步：似然函数
$L=P\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}=P\{X_1=x_1\}P\{X_2=x_2\}\cdots P\{X_n=x_n\}=P\{X=x_1\}P\{X=x_2\}\cdots P\{X=x_n\}$ ；

第二步：对似然函数 $L$ 两边取对数 $\ln L$ ；

第三步： (1) 若 $\ln L$ 只含有一个参数 $\theta$ ，令 $d(\ln L)/d\theta=0$ ，解出驻点 $\widehat{\theta}=\widehat{\theta}(x_1,x_2,\cdots,x_n)$ （估计值），从而可以得到最大似然估计量 $\widehat{\theta}=\widehat{\theta}(X_1,X_2,\cdots,X_n)$ ；

（2）若 $\ln L$ 含有两个参数 $\theta_1,\theta_2$ ，令 $\partial \ln L/\partial \theta_1=0,\partial \ln L/\partial \theta_2=0$ ，解出驻点即可得到估计值。

$Case II: \pmb{Case\space II:}$ 总体 $X$ 为连续型（概率密度 $f (x)$ 已知，但含有未知参数）

第一步：似然函数 $L=f(x_1)f(x_2)\cdots f(x_n);$ 其余步骤同上。

【例】设总体 $X\sim N(\mu,\sigma^2)$ ， $(X_1,X_2,\cdots,X_n)$ 为来自总体的简单随机样本。设 $\mu=2$ ，求参数 $\sigma^2$ 的矩估计量。

解：似然函数为 $L=f(x_1)f(x_2)\cdots f(x_n)=\big(\frac{1}{\sqrt{2\pi}}\big)^n\cdot (\sigma^2)^{-\frac{n}{2}}EXP\big\{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-2)^2\big\}.$ $\ln{L}=n\ln\big(\frac{1}{\sqrt{2\pi}}\big)-\frac{n}{2}\ln\sigma^2-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-2)^2.$ 令 $\frac{d\ln L}{d(\sigma^2)}=-\frac{n}{2}\frac{1}{\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^n(x_i-2)^2=0$ 可解得 $\sigma^2$ 的最大似然估计量为： $\widehat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(X_i-2)^2.$ 有时可能会出现对数似然函数求导后，导函数恒不等于0，这样就没有驻点了。那此时我们只能根据定义去进行估计了。构造似然函数的目的就是找到一个 $\theta$ ，使得这个似然函数最大。

而对一个函数求最大，我们根据高数的知识，不只有求导数一种办法。如果出现导数不为 0 的情况，不妨设求导后，导数恒小于 0 ，那么似然函数就是参数 $\theta$ 的减函数，我们只需让 $\theta$ 尽可能小就是。如下面的例子。

【例】 设总体 $X$ 的密度函数为 $f(x)=\begin{cases} 2x/\theta^2 & 0<x<\theta \\ 0 &else\end{cases}$ $(X_1,X_2,\cdots,X_n)$ 为来自总体 $X$ 的简单随机样本，求 $\theta$ 的最大似然估计量。

解：构造似然函数 $L(\theta)=f(x_1)f(x_2)\cdots f(x_n)=\frac{2^n}{\theta^{2n}}x_1x_2\cdots x_n(0<x_i<\theta,i=1,2,\cdots,n).\\ \frac{d\ln L}{d\theta}=-\frac{2n}{\theta}<0.$ 此时我们需让 $\theta$ 尽可能小，但根据条件， $\theta$ 又必须大于所有的观测值 $x_i(i=1,2,\cdots)$ ，因此我们的 $\widehat{\theta}$ 可取 $\max\{x_1,x_2,\cdots,x_n\}$ ，即可使得似然函数最大，那相应的估计量为 $\widehat{\theta}=\max\{X_1,X_2,\cdots,X_n\}.$