ML与REML的简单比较

文章来源：企鹅号 - 小袁的数量遗传学笔记

欢迎拍砖。

先看最简单的模型：

假设表型值y独立，且服从正态分布。

1.ML估计

根据ML的思想，首先要构建样本的似然函数（联合密度），然后求使得似然函数取值最大时的估计值。参数的似然函数为：

求解：

可得：

2.REML估计

对于约束最大似然法(REML),现不加证明地指出【参考资料1】：

很显然，我们并不能直接计算出，因为是未知的。我们假设的初始值为V，这是合理的，因为V是最大似然估计值。即：，那么(迭代下去)：

...

我们假设到k+1步时，收敛，即可以认为，带入下式：

可得：

对比ML和REML得到的结果：

可见ML用的自由度为n,而REML用的自由度为n-1;为什么说REML所用的自由度n-1是合理的呢？

所谓自由度，简单理解就是自由变化变量的个数，举个哈代-温伯格平衡卡方检验的例子就很能说明这个问题，哈代-温伯格定律成立的条件下(零假设成立)：

该卡方统计量的自由度为1.我们看似变量有三个，但正真能够自由变化的变量只有1个，即（p或q）,因为p一旦固定了，那么q=1-p,而后面的所有变量都固定了。

再回到ML和REML的比较，因为虽然变量的个数是n个，但ML和REML方差的估计均依赖于均值，因而，在给定了均值时、任意n-1个变量时，另外的一个变量自然也就确定下来了，（n*均值）- （给定n-1个变量）= 第n个变量，所以REML所用的自由度为n-1是合理的。

就从这个角度而言，当样本数n比较大（n趋于无穷大），而固定效应的个数又比较少的时候，REML方法和ML方法的结果是差不多的。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货