两阶段方法包括两个回归阶段:遗传IV对暴露的第一阶段回归,以及第一阶段暴露的拟合值对结局的第二阶段回归。
连续型结局–两阶段最小二乘法
对于连续型结局变量和线性模型,两阶段方法又称为两阶段最小二乘法(two-stage least squares,2SLS),当然在有多个IV时我们也可以使用此方法。
在第一阶段回归中(G–X),我们使暴露在IV上回归以得出暴露在IV上的拟合值(X^| G)。在第二阶段回归中(X-Y),我们根据第一阶段回归的拟合值对结局Y进行回归。因果估计的效应量就是是该第二阶段的回归系数,用于反映由于暴露量单位变化而导致的结局变化。对于单个IV而言,2SLS估计与比率估计(Wald ratio estimation)相同。在有多个IV的情况下,2SLS估计量可以看作是单个工具变量计算出的比率估计值的加权平均值,其中权重由第一阶段回归中工具变量的相对强度确定。
假设我们有K个工具变量可用,总人数为N,使用下标k=1,2,……,K代表每个IV,使用下标i = 1,2,……, N代表每个个体,则每个个体的暴露值可记为xi,结局值记为yi。这里我们假定每个IV遵循加性模型,用gik记作第i个个体在第k个IV上的基因型。那么,第一阶段回归模型为:
然后在第二阶段回归模型中使用拟合值
对结局进行回归:
其中εXi和εYi是独立的误差项,我们感兴趣的因果估计值为β1。如果通过标准最小二乘回归估计两个模型,则将两个误差项都假定为正态分布。尽管在两个阶段中对因果效应的估计(顺序回归方法)给出了正确的点估计,但是在第二阶段回归中得出的标准误差是不正确的。这是因为它没有考虑第一阶段回归中的不确定性。
在等式中的误差项的方差齐性下:
2SLS估计量的渐近方差为:
其中σ2^是来自前一个等式的残差方差的估计,并且由IV组成的矩阵G和暴露X包含常数项。这里建议使用2SLS软件进行估算。在实际中,我们经常使用稳健标准误差,因为该估计值对模型中异方差性和错误识别比较敏感。当所有关联都是线性的并且误差项呈正态分布,如果存在(k+1)个IV,那么2SLS估计量具有有限的k阶矩。因此,只有存在至少2个IV时,我们才定义2SLS估计量的平均值,而仅当存在至少3个IV时才定义方差。
这一期的内容含有较多的统计理论,有些小伙伴看起来可能不太明白,米老鼠在这里强调一下重点:
对于多个IV的情况,我们一般使用两阶段最小二乘法。第一阶段是用暴露在工具变量上回归得到暴露的拟合值,第二阶段是对结局在暴露的拟合值上进行回归,第二阶段得到的暴露拟合值的回归系数就是我们关心的因果效应值了。