前言
参考:
- 浙大《概率论与数理统计》第5版
- 高教社《概率论与数理统计》第3版
点估计
设总体X的分布函数的形式已知,但它的一个或多个参数未知,借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题
矩估计
设X为连续型随机变量,其PDF为f(x;\theta_1,\theta_2,\cdots,\theta_k),或X为离散型随机变量,其PMF为P(X=x)=p(x;\theta_1,\theta_2,\cdots,\theta_k),其中\theta_1,\theta_2,\cdots,\theta_k为待估参数,X_1,X_2,\cdots,X_n是来自X的样本,假设总体X的前k阶矩
::: align-center
\mu_l=E(X^l)=\int_{-\infty}^{\infty}x^lf(x;\theta_1,\theta_2,\cdots,\theta_k)dx(连续型)
:::
或
::: align-center
\mu_l=E(X^l)=\sum_{x\in R_X}x^lp(x;\theta_1,\theta_2,\cdots,\theta_k)(离散型)
:::
(其中R_X是X可能取值的范围)存在,l=1,2,\cdots,k,一般来说,它们是\theta_1,\theta_2,\cdots,\theta_k的函数,基于样本矩
::: align-center
A_l=\frac{1}{n}\sum_{i=1}^nX^l_i
:::
因辛钦大数定律依概率收敛自总体矩\mu_l(l=1,2,\cdots,k),样本矩的连续函数依概率收敛于相应的总体矩的连续函数,我们就用样本矩作为相应的总体矩的估计量,这种方法称为矩估计法,它的具体做法如下:
设
::: align-center
\left\{\begin{aligned}&\mu_1=\mu_1(\theta_1,\theta_2,\cdots,\theta_k),\\&\mu_2=\mu_2(\theta_1,\theta_2,\cdots,\theta_k)\\&\cdots\\&\mu_k=\mu_k(\theta_1,\theta_2,\cdots,\theta_k)\end{aligned}\right .
:::
这是一个包含k个未知参数\theta_1,\theta_2,\cdots,\theta_k的联立方程组。一般来说,可以从中解出\theta_1,\theta_2,\cdots,\theta_k,得到
::: align-center
\left\{\begin{aligned}&\theta_1=\theta_1(\mu_1,\mu_2,\cdots,\mu_k)\\&\theta_2=\theta_2(\mu_1,\mu_2,\cdots,\mu_k)\\&\cdots\\&\theta_k=\theta_k(\mu_1,\mu_2,\cdots,\mu_k)\end{aligned}\right .
:::
以A_i分别代替上式中的\mu_i,i=1,2,\cdot,k,就以
::: align-center
\hat{\theta}_k=\theta_i(A_1,A_2,\cdots,A_k),i=1,2,\cdots,k
:::
分别作为\theta_i,i=1,2,\cdots,k的估计量,这种估计量称为矩估计量
矩估计的特点是解法直观容易计算,无需知道总体分布,但是它并不能保证无偏性
极大似然估计MLE
若总体X属离散型,其分布律P\{X=x\}=p(x;\theta),\theta\in\Theta的形式为已知,\theta为待估计参数,\Theta是\theta可能取值的范围,设X_1,X_2,\cdots,X_n是来自X的样本,则X_1,X_2,\cdots,X_n的联合分布律为
::: align-center
\prod_{i=1}^n p(x_i;\theta)
:::
又设x_1,x_2,\cdots,x_n是相应于样本X_1,X_2,\cdots,X_n的一个样本值,易知样本X_1,X_2,\cdots,X_n取到观察值x_1,x_2,\cdots,x_n的联合概率,亦即事件\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}发生的概率为
::: align-center
L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^np(x_i;\theta),\theta\in\Theta
:::
此时我们尝试最大化L(\theta)求解\theta,在直观上这等同于我们在既然已经观察到了X_1取x_1,X_2取x_2\cdots X_k取x_k,固定它们取到的值x,寻找参数\theta使得在实际情况下观察到这些取值的可能性足够大,这与我们通常知道总体分布(分布本身和参数\theta已知)的情况下研究x取某个值的概率正好是相反的
这样,我们得到的\hat{\theta}与样本值x_1,x_2,\cdots,x_n有关,常记为\hat{\theta}(x_1,x_2,\cdots,x_n)称为参数\theta的极大似然估计值
在很多情形下,p(x;\theta)和f(x;\theta)关于\theta可微,这时\hat{\theta}常可求导解得,又因L(\theta)和\ln L(\theta)在同一\theta处取到极值,因此\theta的极大似然估计\hat{\theta}也可以从\ln L(\theta)求导后得到的方程中解决,这个方程称为对数似然方程
区间估计
暂时略过
估计量的评选标准
对于同一参数,用不同的估计方法求出的估计量可能不同,那么该如何判断估计量的好坏,这就涉及到用什么样的标准评价估计量的问题,下面介绍几个标准
无偏性
设X_1,X_2,\cdots,X_n是总体X的一个样本,\theta\in\Theta是包含在总体X的分布中的待估参数,这里\Theta是\theta的取值范围
若估计量\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)的数学期望E(\hat{\theta})存在,且对于任意\theta\in\Theta有
::: align-center
E(\hat{\theta})=\theta
:::
则称\hat{\theta}是\theta的无偏估计量
有效性
如果两个无偏估计量\hat{\theta}_1和\hat{\theta}_2在样本容量n相同的情况下,\hat{\theta}_1的观察值较\hat{\theta}_2在真值\theta的附近更密集,我们就认为\hat{\theta}_1较\hat{\theta}_2更为理想,由于方差是随机变量与其数学期望的偏离程度的度量,故无偏估计应以方差较小者为好,这就引出了有效性
设\hat{\theta}_1=\hat{\theta}_1(X_1,X_2,\cdots,X_n)与\hat{\theta}_2=\hat{\theta}_2(X_1,X_2,\cdots,X_n)都是\theta的无偏估计量,若对于任意\theta\in\Theta,有
::: align-center
Var(\hat{\theta}_1)\le Var(\hat{\theta}_2)
:::
且至少对于某一个\theta\in\Theta上式中的不等号成立,则称\hat{\theta}_1较\theta_2有效
MSE
定义一个参数\theta的估计量为T,则MSE定义为
::: align-center
MSE(T)=E[(T-\theta)^2]
:::
我们假设E(T)=\mu
::: align-center
\begin{aligned}&MSE(T)=E[((T-\mu)+(\mu-\theta))^2]\\&=E[(T-\mu)^2+(\mu-\theta)^2+2(T-\mu)(\mu-\theta)]\\&=E[(T-\mu)^2]+(\mu-\theta)^2+2(\mu-\theta)E(T-\mu)\\&=Var(T)+[\text{bias}(T)]^2\end{aligned}
:::
Cramer-Rao下界(CRLB)和一致最小方差无偏估计量
假设f(x;\theta)为随机变量X的总体PDF(或PMF),该函数以\theta为条件,我们考虑将它视为一个关于x和\thetad的二元函数,考虑整个函数族\{f(x;\theta)|\theta\in\Theta\}的性质
则CRLB定义为:
::: align-center
Var(\theta)\ge I^{-1}(\theta)
:::
其中I(\theta)为费希尔信息(Fisher Information)
::: align-center
I(\theta)=E_X[(\frac{\partial \ln f(x;\theta)}{\partial \theta})^2]=-E_X[\frac{\partial^2\ln f(x;\theta)}{\partial \theta^2}]
:::
注意这里的f(x;\theta)是总体的PDF(或PMF),Cramer-Rao下界给出了总体分布所有可能的函数族中参数\theta方差Var(\theta)的一个下界
在实际应用中,常用MLE中的似然函数L(x,\theta)来估计f(x;\theta),如果将f(x;\theta)替换似然函数后也能达到下界I^{-1}(\theta)则我们称此时MLE估出的参数\hat{\theta}为一致最小方差无偏估计量(Uniform Minimum Variance Unbiased Estimator, UMVUE)
相合性
前面的无偏性与有效性都是在样本容量n固定的条件下提出的,我们希望随着样本容量的增大,一个估计量的值稳定于待估计参数的真值,这样对估计量就又有相合性的要求
::: align-center
设\hat{\theta}(X_1,X_2,\cdots,X_n)为参数\theta的估计量,若对于任意\theta\in\Theta,当n\to\infty时\hat{\theta}(X_1,X_2,\cdots,X_n)依概率收敛于\theta,则称\hat{\theta}为\theta的相合估计量
:::
即,若对于任意\theta\in\Theta都满足,对于任意\epsilon>0,有
::: align-center
\lim_{n\to\infty}P\{|\hat{\theta}-\theta|<\epsilon\}=1
:::
则称\hat{\theta}是\theta的相合估计量
全部评论 (0)
暂无评论,快来抢沙发吧~