前言

参考：

浙大《概率论与数理统计》第5版
高教社《概率论与数理统计》第3版

点估计

设总体 $X$ 的分布函数的形式已知，但它的一个或多个参数未知，借助于总体 $X$ 的一个样本来估计总体未知参数的值的问题称为参数的点估计问题

矩估计

设 $X$ 为连续型随机变量，其PDF为 $f(x;\theta_1,\theta_2,\cdots,\theta_k)$ ，或 $X$ 为离散型随机变量，其PMF为 $P(X=x)=p(x;\theta_1,\theta_2,\cdots,\theta_k)$ ，其中 $\theta_1,\theta_2,\cdots,\theta_k$ 为待估参数， $X_1,X_2,\cdots,X_n$ 是来自 $X$ 的样本，假设总体 $X$ 的前 $k$ 阶矩
::: align-center
$\mu_l=E(X^l)=\int_{-\infty}^{\infty}x^lf(x;\theta_1,\theta_2,\cdots,\theta_k)dx$ （连续型）

:::
或
::: align-center
$\mu_l=E(X^l)=\sum_{x\in R_X}x^lp(x;\theta_1,\theta_2,\cdots,\theta_k)$ （离散型）

:::
（其中 $R_X$ 是 $X$ 可能取值的范围）存在， $l=1,2,\cdots,k$ ，一般来说，它们是 $\theta_1,\theta_2,\cdots,\theta_k$ 的函数，基于样本矩
::: align-center
$A_l=\frac{1}{n}\sum_{i=1}^nX^l_i$

:::
因辛钦大数定律依概率收敛自总体矩 $\mu_l(l=1,2,\cdots,k)$ ，样本矩的连续函数依概率收敛于相应的总体矩的连续函数，我们就用样本矩作为相应的总体矩的估计量，这种方法称为矩估计法，它的具体做法如下：
设
::: align-center
$\left\{\begin{aligned}&\mu_1=\mu_1(\theta_1,\theta_2,\cdots,\theta_k),\\&\mu_2=\mu_2(\theta_1,\theta_2,\cdots,\theta_k)\\&\cdots\\&\mu_k=\mu_k(\theta_1,\theta_2,\cdots,\theta_k)\end{aligned}\right .$

:::
这是一个包含 $k$ 个未知参数 $\theta_1,\theta_2,\cdots,\theta_k$ 的联立方程组。一般来说，可以从中解出 $\theta_1,\theta_2,\cdots,\theta_k$ ，得到
::: align-center
$\left\{\begin{aligned}&\theta_1=\theta_1(\mu_1,\mu_2,\cdots,\mu_k)\\&\theta_2=\theta_2(\mu_1,\mu_2,\cdots,\mu_k)\\&\cdots\\&\theta_k=\theta_k(\mu_1,\mu_2,\cdots,\mu_k)\end{aligned}\right .$

:::
以 $A_i$ 分别代替上式中的 $\mu_i,i=1,2,\cdot,k$ ，就以
::: align-center
$\hat{\theta}_k=\theta_i(A_1,A_2,\cdots,A_k),i=1,2,\cdots,k$

:::
分别作为 $\theta_i,i=1,2,\cdots,k$ 的估计量，这种估计量称为矩估计量

矩估计的特点是解法直观容易计算，无需知道总体分布，但是它并不能保证无偏性

极大似然估计MLE

若总体 $X$ 属离散型，其分布律 $P\{X=x\}=p(x;\theta),\theta\in\Theta$ 的形式为已知， $\theta$ 为待估计参数， $\Theta$ 是 $\theta$ 可能取值的范围，设 $X_1,X_2,\cdots,X_n$ 是来自 $X$ 的样本，则 $X_1,X_2,\cdots,X_n$ 的联合分布律为
::: align-center
$\prod_{i=1}^n p(x_i;\theta)$

:::
又设 $x_1,x_2,\cdots,x_n$ 是相应于样本 $X_1,X_2,\cdots,X_n$ 的一个样本值，易知样本 $X_1,X_2,\cdots,X_n$ 取到观察值 $x_1,x_2,\cdots,x_n$ 的联合概率，亦即事件 $\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}$ 发生的概率为
::: align-center
$L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^np(x_i;\theta),\theta\in\Theta$

:::
此时我们尝试最大化 $L(\theta)$ 求解 $\theta$ ，在直观上这等同于我们在既然已经观察到了 $X_1$ 取 $x_1$ ， $X_2$ 取 $x_2\cdots X_k$ 取 $x_k$ ，固定它们取到的值 $x$ ，寻找参数 $\theta$ 使得在实际情况下观察到这些取值的可能性足够大，这与我们通常知道总体分布（分布本身和参数 $\theta$ 已知）的情况下研究 $x$ 取某个值的概率正好是相反的

这样，我们得到的 $\hat{\theta}$ 与样本值 $x_1,x_2,\cdots,x_n$ 有关，常记为 $\hat{\theta}(x_1,x_2,\cdots,x_n)$ 称为参数 $\theta$ 的极大似然估计值

在很多情形下， $p(x;\theta)$ 和 $f(x;\theta)$ 关于 $\theta$ 可微，这时 $\hat{\theta}$ 常可求导解得，又因 $L(\theta)$ 和 $\ln L(\theta)$ 在同一 $\theta$ 处取到极值，因此 $\theta$ 的极大似然估计 $\hat{\theta}$ 也可以从 $\ln L(\theta)$ 求导后得到的方程中解决，这个方程称为对数似然方程

区间估计

暂时略过

估计量的评选标准

对于同一参数，用不同的估计方法求出的估计量可能不同，那么该如何判断估计量的好坏，这就涉及到用什么样的标准评价估计量的问题，下面介绍几个标准

无偏性

设 $X_1,X_2,\cdots,X_n$ 是总体 $X$ 的一个样本， $\theta\in\Theta$ 是包含在总体 $X$ 的分布中的待估参数，这里 $\Theta$ 是 $\theta$ 的取值范围

若估计量 $\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)$ 的数学期望 $E(\hat{\theta})$ 存在，且对于任意 $\theta\in\Theta$ 有
::: align-center
$E(\hat{\theta})=\theta$

:::
则称 $\hat{\theta}$ 是 $\theta$ 的无偏估计量

有效性

如果两个无偏估计量 $\hat{\theta}_1$ 和 $\hat{\theta}_2$ 在样本容量 $n$ 相同的情况下， $\hat{\theta}_1$ 的观察值较 $\hat{\theta}_2$ 在真值 $\theta$ 的附近更密集，我们就认为 $\hat{\theta}_1$ 较 $\hat{\theta}_2$ 更为理想，由于方差是随机变量与其数学期望的偏离程度的度量，故无偏估计应以方差较小者为好，这就引出了有效性

设 $\hat{\theta}_1=\hat{\theta}_1(X_1,X_2,\cdots,X_n)$ 与 $\hat{\theta}_2=\hat{\theta}_2(X_1,X_2,\cdots,X_n)$ 都是 $\theta$ 的无偏估计量，若对于任意 $\theta\in\Theta$ ，有
::: align-center
$Var(\hat{\theta}_1)\le Var(\hat{\theta}_2)$

:::
且至少对于某一个 $\theta\in\Theta$ 上式中的不等号成立，则称 $\hat{\theta}_1$ 较 $\theta_2$ 有效

MSE

定义一个参数 $\theta$ 的估计量为 $T$ ，则MSE定义为
::: align-center
$MSE(T)=E[(T-\theta)^2]$

:::
我们假设 $E(T)=\mu$
::: align-center
$\begin{aligned}&MSE(T)=E[((T-\mu)+(\mu-\theta))^2]\\&=E[(T-\mu)^2+(\mu-\theta)^2+2(T-\mu)(\mu-\theta)]\\&=E[(T-\mu)^2]+(\mu-\theta)^2+2(\mu-\theta)E(T-\mu)\\&=Var(T)+[\text{bias}(T)]^2\end{aligned}$

:::

Cramer-Rao下界(CRLB)和一致最小方差无偏估计量

假设 $f(x;\theta)$ 为随机变量 $X$ 的总体PDF（或PMF），该函数以 $\theta$ 为条件，我们考虑将它视为一个关于 $x$ 和 $\theta$ d的二元函数，考虑整个函数族 $\{f(x;\theta)|\theta\in\Theta\}$ 的性质

则CRLB定义为：
::: align-center
$Var(\theta)\ge I^{-1}(\theta)$

:::
其中 $I(\theta)$ 为费希尔信息（Fisher Information）
::: align-center
$I(\theta)=E_X[(\frac{\partial \ln f(x;\theta)}{\partial \theta})^2]=-E_X[\frac{\partial^2\ln f(x;\theta)}{\partial \theta^2}]$

:::
注意这里的 $f(x;\theta)$ 是总体的PDF（或PMF），Cramer-Rao下界给出了总体分布所有可能的函数族中参数 $\theta$ 方差 $Var(\theta)$ 的一个下界

在实际应用中，常用MLE中的似然函数 $L(x,\theta)$ 来估计 $f(x;\theta)$ ，如果将 $f(x;\theta)$ 替换似然函数后也能达到下界 $I^{-1}(\theta)$ 则我们称此时MLE估出的参数 $\hat{\theta}$ 为一致最小方差无偏估计量（Uniform Minimum Variance Unbiased Estimator, UMVUE）

相合性

前面的无偏性与有效性都是在样本容量 $n$ 固定的条件下提出的，我们希望随着样本容量的增大，一个估计量的值稳定于待估计参数的真值，这样对估计量就又有相合性的要求

::: align-center
设 $\hat{\theta}(X_1,X_2,\cdots,X_n)$ 为参数 $\theta$ 的估计量，若对于任意 $\theta\in\Theta$ ，当 $n\to\infty$ 时 $\hat{\theta}(X_1,X_2,\cdots,X_n)$ 依概率收敛于 $\theta$ ，则称 $\hat{\theta}$ 为 $\theta$ 的相合估计量

:::
即，若对于任意 $\theta\in\Theta$ 都满足，对于任意 $\epsilon>0$ ，有
::: align-center
$\lim_{n\to\infty}P\{|\hat{\theta}-\theta|<\epsilon\}=1$

:::
则称 $\hat{\theta}$ 是 $\theta$ 的相合估计量