4.1.3 二分类结局
在流行病学应用中,疾病通常是人们关注的结局,而疾病的结局通常是二分类变量(即只有患病和无病两种情况)。在这里,我将使用流行病学术语定义具有结局事件的个体为病例(Y=1),将没有结局事件发生的个体作为对照(Y=0)。比率估计的定义与连续型结局变量的定义类似:比率方法对数风险比率估计(二分法IV)= ∆Y/∆X= (y1‘ − y0)/(x1’−x0’) 。其中yi’通常是遗传亚组i中结局事件发生概率的自然对数,或者是“风险比”的自然对数。这里的风险比率(riskratio)是一个泛指,它包括相对危险度(relative risk, RR)或者优势比(odds ratio,OR)。当IV是多分类或者连续型变量时,用于比值估计的系数βY|G^取自Y在G上回归的结果。原则上我们使用的回归模型可以是线性的,其中IV估计值表示暴露单位发生变化后引起的结局事件概率的变化。但是对于二分结果,我们通常首选对数线性或逻辑回归模型,其中IV估计值分别表示暴露单位变化的对数相对风险或对数比值比。对于Logistic模型,估计比值比取决于模型中选择的协变量。
4.1.4 回顾性研究或病例-对照研究数据
在孟德尔随机研究中,我们通常仅使用回顾性数据中未患病的个体(如病例对照研究中的对照人群)推断基因与暴露的关联。这就假定对照中的暴露分布与普通人群的分布相似,这对于罕见疾病是正确的。这么做主要是因为两个方面:(1)反向因果关系:结局事件可能会使结局发生后测量出的暴露值失真;(2)在病例对照的情况下,研究人员通常会尽可能多地纳入病例,这也意味着纳入人群中的混杂因素分布与普通人群中的混杂因素分布不同,这可能导致IV和混杂因素之间的关联,导致IV估计存在较大偏倚。如果结局事件很普遍,并且已知其在总人群中的发病率,则可以同时使用病例和对照数据去获取基因与暴露的关联。在这里,我们可以通过对样本加权来使加权样本中病例和对照的比例与基础人群中的比例相匹配,这样的分析就和在实际人群中进行十分接近。
4.1.5 置信区间
比率估计的置信区间计算方法很多,这里我主要和大家介绍其中的两种。
(1) 正态近似:最简单的置信区间估计方法,它室基于比率方差的delta方法展开的前两项来估计的。
比率估计值的标准误计算如下:
此标准误的估计值是假设比率估计量的分子和分母不相关;这种相关性可以通过纳入delta展开的第三项来解释,但它不太可能对标准误的估计产生重大影响。但是,这可能会导致渐近(大样本)正态近似在过窄的置信区间内,尤其是在样本量不大或IV较弱的情况下。这主要是因为IV估计值不是正态分布的。
(2)Fieller’s定理:如果假设比率法估计的回归系数βY|G^和βX|G^为正态分布,则可以使用菲勒定理计算比率估计值的临界值和置信区间。我们假设βY|G^和βX|G^之间的相关性为零;可以使用其他值,但是它们对置信区间的影响通常很小。如果标准误差为se(βY|G^)和se(βX|G^)并且样本大小为N,则我们定义:
其中tN(0.975)是自由度为N的t分布的97.5%分位数(N>100,tN(0.975)≈1.96)。如果D> 0且f1>0,则95%置信区间为(f2-√D)/ f1至(f2 +√D)/ f1。如果我们有一个“强”工具(即一种可以解释人口中大部分暴露变化的工具),则置信区间更有可能是这样的封闭区间。通过使用t分布的(1-α/ 2)点,我们可以类似地构建大小为α的置信区间。如果D<0,则没有区间可以覆盖95%置信度的真实参数。当遗传亚组之间的暴露和结局分布几乎没有差异时(弱工具变量),就会发生这种情况,因此可能会出现与任何因果效应大小相对应的梯度。如果D> 0并且f1<0,则95%置信区间是从负无穷大到(f2 +√D)/ f1和从(f2-√D)/ f1到正无穷大两个区间的并集。除了(f2 +√D)/ f1和(f2-√D)/ f1之间的值以外,所有可能的值都包含在间隔中。这表明结果的差异并非仅由暴露的差异引起,因此违反了IV假设。总而言之,Fieller定理给出了具有三种可能形式之一的置信区间:
i)该间隔可以是闭合间隔[a,b];
ii) 该间隔可以是闭合间隔的补集(-∞,a]∪[b,∞);
iii)间隔可能是无界的。
其中,a =(f2-√D)/ f1,b =(f2 +√D)/ f1。当IV较弱时,Fieller定理的置信区间优于渐近正态近似的置信区间。