孟德尔随机化之因果推断的假设（一）

生信与临床

发布于 2020-09-03 16:39:55

2.5K0

发布于 2020-09-03 16:39:55

文章被收录于专栏：生物信息与临床医学专栏

‍‍‍

‍‍‍‍

3.2‍查找有效的工具变量‍‍

‍‍‍‍‍‍‍‍‍‍

工具变量（IV）技术是可用于估算因果效应的几种方法之一，而无需完全了解所有可能影响暴露-结局关系的混杂因素。在这一期中，我们继续回顾和讨论IV的特性，并探讨实际研究中的IV假设是如何被违背的。

‍

‍‍‍3.2.1工具变量假设

‍‍‍‍‍‍

为了使用遗传变量来估计因果效应，它必须满足工具变量的三条关键假设，在前文中已有讲解，这里再强调一下：

1）工具变量与暴露密切相关；‍

2）工具变量与任何影响暴露-结局关联的混杂因素均不相关；

3）除非借助与暴露的关联，否则工具变量不会影响结局。

这里第一个假设保证了由工具变量定义的遗传亚组的平均暴露水平不同，这样可以确保各亚组之间存在系统的差异。如果就其统计学关联强度而言，遗传变异与暴露没有强烈关联，则称其为弱工具变量（后续会详细介绍）。弱工具变量与无效工具变量是不同的，因为可以通过扩大样本量来使增加弱工具变量的效力。如果单个遗传变异是一个弱工具变量，那么它仍将对因果效应给出有效的检验，但是检测真正因果效应的能力可能很低。可是在分析模型中组合多个弱工具变量以获得单个效果估计会导致误导性推断。第二个假设可以理解为确保遗传亚组之间的其它变量分布均衡，也就是说，所有其他变量在各亚组之间平均分配。第三个假设通常使用条件独立性的概念来表达，也即遗传变异与结局不直接相关，除了暴露以外，没有其他途径可以使遗传变异与结局相关。

‍‍‍3.2.2 IV‍假设的有效性‍‍‍‍

RCT中的随机亚组是可交换的。这意味着，如果每个亚组都接受治疗或控制方案，则预期结果的分布相同。尽管一个人只能暴露于两种治疗方案之一，但是通过将每个亚组暴露于不同的治疗方案中，实际上我们观察到了两个相反的平行空间中的每个种群，并且可以比较每个亚组的平均结果，因而可以一致地估计因果效应，这意味着RCT可以将总体的因果效应估计为总体随机亚组中结果的平均水平之间的差异（由于随机分配给总体，平均水平与总体总体具有相同的特征）。个体的因果效应无法估计，因为个体通常无法同时接受治疗和控制制度。对于孟德尔随机化，IV的关键特性是其独立于竞争风险因素外将人群分为遗传亚组，因此由IV定义的遗传亚组是可互换的。

接下来，我们考虑遗传变异可能不是有效IV的原因。这些问题包括生物学机制，遗传一致性和种群效应。

3.2.3违反IV假设：生物学机制

我们认为可能违反IV假设的第一类原因是由于潜在的生物学机制。

（1）多效性（pleiotropy）：多效性是指与多种危险因素相关的遗传变异。如果用作IV的遗传变异与影响结局的其它危险因素相关联，则它就违反了第二或第三个IV假设，并且该遗传变异不是有效的IV。如果遗传变异与能且只能影响暴露的其他因素相关（有时称为垂直多效性），那么就我们的目的而言，这不被视为多效性。例如，FTO基因是饱腹感的决定因素，如果饱食感会且只会影响体重指数（BMI），则FTO基因的遗传变异可以用作BMI的IV。但是，如果FTO基因也与血压相关联，并且这种关联并非完全由该基因与BMI的关联所介导，则我们无法在FTO基因中使用遗传变异做出关于BMI对结局的因果影响。在实际研究中，我们可以通过使用位于基因区域中的遗传变异来尽量减少多效性，因为这些遗传变异的生物学功能已得到很好的理解。例如，对于C反应蛋白（CRP），我们可以在CRP基因中使用已知与CRP水平及调节功能相关的遗传变异，然后评估这些遗传变异与测得的协变量之间的关联，以研究潜在的多效性。

（2）渠化（canalization）：渠化或发展补偿是一种现象，个体通过这种机制来适应遗传变化，从而减少这种变化带来的影响，其在基因敲除研究中最明基。因某基因在生物体（通常是小鼠）中完全失活，生物通常会发展一种补偿机制，以允许缺失基因功能得到补偿或替代，从而使基因的功能通过不同的生物学途径表达。遗传效应的这种爆发可能对其他变量产生下游影响。如果具有不同水平的遗传变异的群体不仅在关注的目标方面有所不同，而且在通过渠化机制对其他风险因素方面有所不同，则在孟德尔随机化中，渠化可能是一个问题。从某种意义上说，渠化不违反IV假设，而仅仅是（通常是不希望的）后果。渠化过程与孟德尔随机化评估过程相同，因为渠化过程中其他风险因素的任何变化都是由于遗传变异的因果效应而发生的。然而，孟德尔随机化的目的不仅仅是描述遗传变化的影响，而是评估（非遗传）暴露和结局的因果关系。如果有大量的渠化，孟德尔随机估计可能无法代表在成熟队列中进行的临床干预措施。

3.2.4违反IV假设：非孟德尔式遗传

我们认为违反IV假设的第二种情况是非‍孟德尔遗传，它是指与孟德尔定律不符的遗传方式。

（1）连锁不平衡（linkage disequilibrium）：遗传变异被一起遗传的一个特殊原因是他们在同一染色体上的物理接近性（物理距离相近）。分布相关的变异被称为连锁不平衡，与之相对的就是连锁平衡。 LD既有理想的后果，也有不良的后果。如果遗传变异真正独立分布，那么只有真正引起暴露变化的遗传变异（causal variants，也称为因果变异）才能用作IV，因为所有其他遗传变异都不会与暴露相关。实际上，用作IV的遗传变异不一定是因果变异，而只是与因果变异相关。这是因为孟德尔随机化必须将人群简单地分为亚组，这些亚组仅就暴露程度而言会有系统上的不同（如下图所示）。 LD的不良后果是，在分析中使用的与因果变异相关的IV可能会对其它混杂因素产生影响，这将导致违反第二或第三IV假设（类似于由于多效性而引起的违反），针对这种情况我们可以通过检测已知潜在混杂因素与测量变量的关联来减少偏倚。

‍

‍

‍‍

‍

‍‍（2）效应修正（effect modification）：效应修正是一个独立于混杂现象的情况，它涉及变量效应（通常是暴露效应）与协变量值之间的统计交互作用，从而导致暴露的因果效应在各个层次之间变化取决于协变量的层次，可能导致效应修正的因素包括但不限于非孟德尔遗传（如表观遗传变异和亲本来源效应）。单独的效应修正不可能违反IV假设；然而，这可能给解释孟德尔随机化带来困难。以饮酒对食道癌风险的影响为例：在日本人口中，只有男性倾向于饮酒，因此，与结局的遗传关联可能仅在男性中观察到，而在女性中可能不存在。如果有生物学原因导致某些不同人群中的遗传关联性增强或减弱（甚至不存在），则在该人群中测得的关联性将不能代表整个人口的影响。但是，这也可能提供验证IV假设的机会------日本女性是日本男性的自然对照组。如果在日本女性中未观察到饮酒与食道癌风险的相同遗传关联，那么这进一步表明与疾病风险的遗传关联是由饮酒驱动的，而不是违反IV假设。

3.2.5违反IV假设：群体效应（population effects）

我们认为可能违反IV假设的最后一种情况是群体效应。

（1）人群分层（population stratification）：当被调查的人口可以分为不同的亚群时，就会发生人群分层。例如，当人口是由不同种族的人组成时，可能会发生这种情况。如果遗传变异的频率和暴露的分布在不同的亚群中是不同的，则会导致变异与暴露之间的错误关联，这是由于亚群间的差异而不是遗传变异的影响所致。如果人口结构连续变化，也可能违反IV假设，可以通过将研究人群限制在相同种族背景下来减轻人群分层的影响。不过在定义较为宽泛的族群中仍可能存在系统性差异，比如亚洲人中不同种族的擦差异很明显（比如东亚人和中亚人），因此不建议在具有大量遗传异质性的人群中使用孟德尔随机化方法。

（2）确定性效应（ascertainment effect）：确定性效应是指决策者会加重对被认为是确定性结果的选择。在这里是指，如果遗传变异与研究的募集有关，则每个遗传亚组中个体的相对比例与人群中的自然比例不同，因此从样本中得出的因果关系可能并不存在与原始人口中。如果研究人群来自普通人群，那么确定性效应在实际中就不太可能成为主要问题。但是，如果研究队列是怀孕的母亲，并且遗传变异与生育力相关，那么遗传亚组中协变量的分布将有所不同，并且与普通人群中的分布不同，这可能会在因果效应的估计中引入偏倚。在研究患病群体遗传关联的研究中，例如在继发性疾病预防的临床试验中，这也是一个问题。具有较高遗传决定的疾病风险的个体不太可能幸存下来进行研究募集，因此受孕时将个体随机分为遗传亚组的情况在研究人群中将不成立，从而导致遗传关联偏倚。

3.2.6 IV假设的统计评估

尽管我们无法最终证明IV假设的有效性，但可以通过一些测试和评估来尽可能保证IV的有效性。IV有效性的最简单评估是测试遗传变异与已知混杂因素之间的关联，如果暴露与影响结局的协变量关联（不在暴露与结局之间的因果关系上），那么将违反IV的第2条假设。但是，目前还没有确定的方法可以确定与协变量的关联是由违反IV假设（例如由于多效性或连锁不平衡）还是由暴露介导的。此外，我们无法测试该遗传变异是否与无法衡量的混杂因素相关联。如果存在多个协变量和/或遗传变量，则任何假设检验方法都需要考虑每个协变量的多‍重比较，这也导致我们检测真正因果关联的效力下降（假阴性率升高）。另外，由于几个协变量可能相关，所以简单的Bonferroni校正可能是过度校正，一个明智的方法是对遗传亚组与IV偏倚之间的协变量不平衡进行定量和定性评估，并与假设检验结合。检测IV有效性的另一种方法是观察遗传变异与结局之间的关联是否会因风险因素的调整而减弱。如果有多个遗传变异，每个变异都是有效的IV，则可以依次计算单个IV的效应。假设每个IV以相似的方式影响暴露，即使与暴露的遗传关联程度不同，单独的IV估计值也应相似。我们可以通过绘制IV与暴露程度和结局的关联图进行评估：如下图所示，可以预料这些IV的效应在一条直线。我们也可以使用多种方法来计算这些IV的异质性，后续会和大家详细介绍。在孟德尔随机化中，使用某种特定遗传变异作为IV的任何理由都应以生物学知识而非统计学检验为基础。‍

‍‍

‍

‍

‍‍

3.2.7与IV有效性有关的问题总结

IVs的有效性对于孟德尔随机化至关重要。我们认为，将遗传变异作为IV的选择应主要通过基本生物学知识来证明，但也可以通过统计检验来证明。我们应当根据IV假设的合理性对孟德尔随机化结果给予恰当的解释，尤其是当对IV假设的证明主要是经验性的那些假设时，我们更需要十分慎重。这表明来自候选基因研究的变异，其中遗传变异的功能得到了很好的理解，与在基因编码区以外的变异（例如在全基因组范围内发现的变体）相比，在孟德尔随机研究中使用它们的可信度更高。不过，我们应该记住：所有用于评估因果效应的统计方法都依赖于一些无法检验的假设，因此，即使IV假设的有效性可能无法完全满足，孟德尔随机化对于确定暴露和结局间的因果关系也具有重要作用。值得一提的是：英国对一组献血者中遗传变异和非遗传因素（例如环境暴露）的分布以及人群中的代表性样本的研究显示，非遗传因素存在显着差异，但遗传因素并没有产生比偶然预期更多的差异，表明遗传因素似乎在英国人口中独立于可能的混杂因素而分布。这为遗传变异体作为IV的一般适用性提供了合理性，但在每种特定情况下，假设的论证都依赖于有关遗传变异的生物学知识。

‍

‍‍

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-09-02，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自生信与临床微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度

孟德尔随机化之因果推断的假设（一）

孟德尔随机化之因果推断的假设（一）

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐