欢迎拍砖。
先看最简单的模型:
假设表型值y独立,且服从正态分布。
1.ML估计
根据ML的思想,首先要构建样本的似然函数(联合密度),然后求使得似然函数取值最大时的估计值。参数的似然函数为:
求解:
可得:
2.REML估计
对于约束最大似然法(REML),现不加证明地指出【参考资料1】:
很显然,我们并不能直接计算出,因为是未知的。我们假设的初始值为V,这是合理的,因为V是最大似然估计值。即:,那么(迭代下去):
...
我们假设到k+1步时,收敛,即可以认为,带入下式:
可得:
对比ML和REML得到的结果:
可见ML用的自由度为n,而REML用的自由度为n-1;为什么说REML所用的自由度n-1是合理的呢?
所谓自由度,简单理解就是自由变化变量的个数,举个哈代-温伯格平衡卡方检验的例子就很能说明这个问题,哈代-温伯格定律成立的条件下(零假设成立):
该卡方统计量的自由度为1.我们看似变量有三个,但正真能够自由变化的变量只有1个,即(p或q),因为p一旦固定了,那么q=1-p,而后面的所有变量都固定了。
再回到ML和REML的比较,因为虽然变量的个数是n个,但ML和REML方差的估计均依赖于均值,因而,在给定了均值时、任意n-1个变量时,另外的一个变量自然也就确定下来了,(n*均值)- (给定n-1个变量)= 第n个变量,所以REML所用的自由度为n-1是合理的。
就从这个角度而言,当样本数n比较大(n趋于无穷大),而固定效应的个数又比较少的时候,REML方法和ML方法的结果是差不多的。
领取专属 10元无门槛券
私享最新 技术干货