1.2 连续型结局变量,多分类或连续型工具变量
有时候,IV可能无法将遗传亚组依据不同暴露层次单纯分为两组。这时候,一般会出现3个遗传亚组:AA(主要纯合子,majorhomozygote),AA(杂合子,heterozygote)和aa(次要纯合子,minor homozygote),这三个水平分别称为0、1和2,分别对应于次要等位基因的数目。在加性模型中,我们假设遗传变异的次要等位基因拷贝数与暴露因素水平成正比。在等位基因得分(allele score)与暴露也是线性相关的假设下,IV也可以是等位基因得分(连续型变量)。
在X在G上的回归中,G的系数写为βX|G^,同样地,将Y在G上的回归中G的系数写为βY|G^。因果关系的比率估计值为:
比率方法估计(多分类/连续型IV)= βY|G^/βX|G^。
直观来看,我们可以认为比率法是说X每单位增加时Y的变化等于标化后G每单位增加时Y的变化。如下图所示,每个图以相同比例绘制,左上方的图显示暴露和结局呈负相关,虚线表示线性回归的观察关联。但是,如右上图所示,在不同遗传亚组中的个体用不同符号进行标记,用圆圈标记的亚组中的个体趋向于向图的西南方向聚集,并且在亚组中用正方形标记的个体趋向于图的东北。左下图显示每个遗传亚组中暴露和结局的平均值,其中的线表示平均值的95%置信区间,右下角的图包括各个数据点、各亚组的均值和比率方法的因果估计。我们看到正向的因果估计值,这些点的95%置信区间表明:IV比率估计的不确定性大于观测估计的不确定性。

从技术角度来看,在遗传对暴露的单调影响和线性因果估计假设条件下,比率估计方法仍然是有效的。因此,比率估计值已被称为线性IV平均效应(linear instrumental variable averageeffect, LIVAE)。单调性意味着对所有g1>= g0的个体而言,则g1个体对应的暴露都会大于或等于g0个体对应的暴露。如果不满足单调性假设,则只有在整个人群中所有个体都恒定的情况下,才能一致地估计暴露对结果的因果关系。线性假设是:结局Y的期望值取决于暴露X和混杂因子U:E(Y | X = x,U = u)=β0+β1*X+ h(u),其中h(u)是U的函数。因此,X和U之间没有交互作用还要求结构模型:E(Y | do(X = x))= β0’+β1*X成立,其中因果效应β1与前一个等式中的相同。这类似于一致性假设,该假设指出,如果暴露值是自然观察或人为干预获得的,则个体的结果将是相同的。尽管混杂由单个变量U表示,但这只是为了表示U代表所有混杂变量的组合效果。我们注意到比率估算值可以简单地根据系数βY|G^和βX|G^来计算,而这仅要求提供汇总数据,而不是个人级别的数据,因此我们可以充分利用已经发表的GWAS结果来进行孟德尔随机化研究,我会在实际应用部分和大家详细介绍。