今天的内容围绕8年前的一篇文章来讲——
International Journal of Epidemiology, 2015, 512–525
违反假设(A2)或(A3)的被 IV 定义为 "无效 "IV。即可能对结果产生直接影响的变量,就被称为 "无效 "工具变量。
如果将无效的 IV 误认为有效,通常会导致对因果效应的估计出现偏差。
在考虑存在无效工具变量带来偏差的情况下,有两种广泛的有效推断方法:对偏差求平均值,或利用稳健统计的思想消除偏差。
而Egger regression
是在荟萃分析中检测小规模研究偏差的一种工具,可用于检测多生物效应的偏差,其斜率系数提供了因果效应的估计值。
MR-Egger 由三部分组成:(1) 水平多效性检验,(2) 因果效应检验,以及 (3) 因果效应估计。虽然孟德尔随机化的传统分析方法假设所有遗传变异都满足工具变量假设,但 MR-Egger 方法能够评估遗传变异是否对平均不同于零的结果具有多效性(水平多效性),以及在较弱的InSIDE假设下,提供对因果影响的一致估计。
该方法的核心在于加权线性回归时考虑截距项的存在,利用截距项来衡量工具变量间平均多效性的大小,斜率则是因果效应的无偏估计。
假设每个遗传变异与暴露的关联都独立于该变异的基因多效性,那么即使所有遗传变异都是无效的工具变量,Egger 检验也能对零因果假设进行有效检验,并得出一致的因果效应估计值。
⬆MR-Egger可以检测并纠正水平的基因多效性,那么问题来啦,什么是水平基因多效性嘞?
推荐一个孟德尔随机化的专业名词查询网站[Mendelian randomization dictionary (mrcieu.ac.uk) https://mr-dictionary.mrcieu.ac.uk/]
水平基因多效性是指:遗传变异会影响其他性状,而这些性状对结局的影响与我们所假设的暴露因素无关。
这就违反了排他性假设,可能导致 MR 估计值出现偏差。
例如,如果与相关风险因素强相关的遗传 IV 也与结果的其他风险因素相关,且这种相关性独立于该风险因素,那么 MR 估计值将是所有风险因素的综合效应,而不是相关风险因素单独的效应。
上图中的(A) 即典型的水平多效性,即相关暴露(X)的工具变量(Z)与结果(Y)直接或通过其他性状间接地独立相关,这将违反 MR 的第三个假设【即独立性假设】,并使 MR 研究的结果产生偏差。
接着回到正题——
其实孟德尔随机化分析的核心就是一个线性方程,而且是最初级的一次函数。
一般形如y=kx+b(k,b是常数,k≠0),其中x是自变量,y是因变量。 特别地,当b=0时,y=kx(k为常数,k≠0),y叫做x的正比例函数。
是不是很熟悉呢?只是这时候的自变量和因变量分别是暴露和结局对应的每个SNP的beta值。如果忽略截距的存在,k值就会被高估,相当于因果效应被放大,所以除了IVW方法以外,我们需要更客观的方法来描述因果效应。
而荟萃分析中的小规模研究偏差的Egger回归可以评估截距 β0E 是否为零。
如果小型研究的估计值(在孟德尔随机化的情况下,弱工具变量的估计值)与大型研究的估计值(强相关工具变量)相比更偏向于高值或低值,就会出现这种情况➡截距 β0E 不为零。
Egger回归 β0E 中截距的估计值可解释为全部工具变量的基因多效应的平均估计值。如果 β0E不为零,则表明存在整体的水平基因多效性。
文章考虑了四个应用场景下IVW和egger法的偏差估计:
a. 没有多效性,则 InSIDE 假设完全成立(代表遗传变异对结果直接影响的所有 α 参数都等于零); b. 平衡多效性,满足 InSIDE 假设(α 参数取正值和负值); c. 有水平多效性,满足 InSIDE 假设(α 参数只取正值,但独立于γ参数); d. 有水平多效性,不满足 InSIDE 假设(a 参数取正值,且与基因对暴露的影响相关)。
c场景下,标准 IVW 估计值会出现明显偏差。
随着样本量的增加,这种偏差变得越来越严重,因果零假设的拒绝率从 30% 增加到 80%。
相比之下,MR-Egger 回归对 β 的估计近似无偏,MR-Egger 估计的因果零假设的 I 类错误率保持在 5%左右。
随着样本量的增加,检测水平基因多效性的能力从 10%小幅上升到 30%以下。
d场景下,InSIDE 假设不成立。工具变量 j 对结果 αj 的直接影响所产生的多向性,会通过 2.5 倍于 αj的混杂因素产生强烈影响,这违反了因果假设 IV1 和 IV3。
在这种情况下,标准的 IVW 估计值会表现出很强的偏差,以至于在所有样本量下拒绝因果关系空值的能力基本上为 1。
MR-Egger 回归对这种强烈违反 IV1 的情况更为稳健,其估计值的偏差较小,且随着样本量的增加而减小。
同样,使用 MR-Egger 回归对因果零假设的拒绝率也只是略微夸大。
在方案(d)下,MR-Egger 检验检测多向效应的能力也显著提高,当 N = 1000 时,检测能力超过 70%。
MR-Egger弱化了传统孟德尔随机化方法对工具变量排他性假设:工具变量与结局无关,且仅通过暴露因素影响结局。MR-Egger仅需满足工具变量与结局的直接效应独立于工具变量与暴露因素的关联效应(instrument strength independent of direct effect,InSIDE)假设。当InSIDE假设满足时,MR-Egger可得到因果效应的一致性估计值,其截距项β0E可解释为J个遗传变异的平均多效性的估计值。若截距为0,则MR-Egger即退化为IVW;若截距不为0,则说明存在多效性,或者违背InSIDE假设。因此,可以通过MR-Egger的截距对无效工具变量的假设进行有效的评估。