设总体分布为$f(x,\theta)$,$X_{1}, X_{2}… X_{n}$为该总体采样得到的样本。因为$X_{1}, X_{2}…X_{n}$独立同分布,它们的联合概率密度为:
$L(x_{1},x_{2},…,x_{n};\theta_{1},\theta_{2},…\theta_{k}=\prod f(x_{i};\theta_{1},\theta_{2},…,\theta_{k}))$,其中$\theta$是未知参数。
可以反过来看,因为样本已经存在,可以把$x_{1}, x_{2},…,x_{n}$看成是已知的,$L(x,\theta)$是关于$\theta$的函数,即为似然函数。
求参数$\theta$的值,使得似然函数取极大值,这种方法就是极大似然估计(maximum likelihood estimation, MLE)。
在实践中,常见会将连乘转化为连加,这是由于求导数的需要,方法是将似然函数取对数,得到对数似然函数,若对数似然函数可导,求导得到驻点,然后分析驻点是极大值点,如下:
$logL(\theta_{1},\theta_{2},…,\theta_{k})$
$=\Sigma_{i=1}^{n}logf(x_{i};\theta_{1},\theta_{2},…,\theta_{k})$
$\frac{\partial L(\theta)}{\partial \theta_{i}}=0, i=1,2,…k$
以正态分布为例求其MLE
若给定一组样本$X_{1}, X_{2}… X_{n}$,已知他们来自于高斯分布$N(\mu, \sigma)$,试估计参数$\mu, \sigma$
过程如下:
step1:高斯分布的概率密度函数为:$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^{2}}}$
step2:将$X_{i}$的样本值$x_{i}$带入,得到联合概率密度函数-似然函数为:
$L(x)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_{i}-\mu)^2}{2\sigma^2}}$
step3:取对数似然函数有,
$l(x)=log(L(x))$
$=log\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_{i}-\mu)^2}{2\sigma^2}}$
$=\Sigma_{i=1}^{n}log\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_{i}-\mu)^2}{2\sigma^2}}$
$=\Sigma_{i=1}^{n}log\frac{1}{\sqrt{2\pi}\sigma}+\Sigma_{i=1}^{n}-\frac{(x_{i}-\mu)^2}{2\sigma^2}$
$=-\frac{n}{2}log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\Sigma_{i=1}^{n}(x_{i}-\mu)^2$
step4:将$l(x)$看成为关于$\mu,\sigma$的目标函数$l(x,\mu,\sigma)$,对目标函数对$\mu,\sigma$求偏导,
$\frac{\partial l(x,\mu,\sigma)}{\partial\mu}=0$
$\frac{\partial l(x,\mu,\sigma)}{\partial\sigma}=0$
求得,
$\mu=\frac{1}{n}\Sigma_{i=1}^{n}x_{i}$
$\sigma^2=\frac{1}{n}\Sigma_{i=1}^{n}(x_{i}-\mu)^2$
意义也比较直观,样本均值为高斯分布均值,样本的伪方差(离散的方差定义为$\frac{1}{n-1}\Sigma_{i=1}{n}(x_{i}-\mu)^2$)为高斯分布的方差