证据链系列之参考人群频率数据库的使用

证据链系列之

参考人群频率数据库的使用

好的工具,让复杂遗传病易于被诊断

前言

背景介绍

在遗传病二代测序分析过程中,由于测序结果中绝大部分变异都为人群非致病多态性,通过一个高质量的参考人群频率数据库可以直接过滤掉99%以上的变异,因此人群频率几乎是使用范围最广也是最重要的过滤方法。

ACMG指南中,有五项证据(PS4 PM2 BA1 BS1 BS2)与变异频率相关,其中后四项与参考数据库相关,本期公众号重点分析这些证据的原理及潜在问题。

注:PS4证据为统计学实验证据,本篇文章暂不讨论。

ACMG指南中人群频率说明

首先复习一下与人群频率相关的证据。

PM2: 在人群参考频率数据库(1kg,EVS,EXAC等)中未见或频率极低

BA1: 在以上数据库中人群频率>5%

BS1: 在以上数据库中人群频率高于疾病发病率

BS2: 在以上数据库中出现的符合致病机理变异(如某认为完全外显隐性疾病相关基因在数据库中出现纯合变异)

ACMG中的特别提示

以上的证据逻辑看似简单,但如果没有仔细阅读ACMG指南的详细说明,很容易忽略几个很重要的干扰因素,这些因素在特定条件下很容易造成假阳性或假阴性。

1

特别提示条目

① 数据库人种构成

以EXAC数据库为例,数据库以Caucasian与African American为主,判断罕见变异的参考证据性较强。

但当检测人种与数据库中对应人种差异较大时,由于founder mutation差异,极罕见变异结果可信度会下降,影响PM2证据。

② 位点覆盖度问题

由于多数注释软件只标注数据库中的allele频率,一个潜在问题为当allele在数据库中覆盖度很差时(富集困难或产品局限性等因素),只参考频率数据无法判断,因此会造成潜在的假阳性或假阴性问题。

③ indel准确性问题

由于indel准确性问题,尤其为低复杂区域的indel准确性较低,另外还有表示标准差异(如对齐方向),因此在参考时需要特别注意。

2

证据链改进

ACMG提出关于人群频率参考时需要注意的问题,但未提出具体解决方案,因此依然面临无参考标准的问题,但所幸的是,后续有机构提出部分问题的解决方案。

位点覆盖度与indel准确性问题

sherloc分类原则中将数据库allele数进行分级,覆盖度越高的位点,证据等级相应越高。

indel准确性问题,sherloc参考变异质量,由于低复杂区域的变异质量通常较低,因此给予这类变异较低的证据等级。

人种构成问题

此类问题最好的解决办法,即构建人群背景相似的参考数据库。

在高质量数据库可用之前,可以参考Nicola Whiffin等提出基于柏松分布矫正频率的概念:对于罕见变异,取柏松分布95%CI的上限。可以有一定的矫正效果。

注:对这个柏松矫正模型不熟悉的读者,可以参考这个解释:当变异频率越低时,抽样波动性越大,通过柏松矫正模型可以降低波动性造成的影响。

3

证据链增加

一些新提出的参考证据

根据疾病特征进行精细划分

sherloc框架中提出根据疾病性质(如遗传方式,发病年龄,外显率等)确定不同过滤标准。

根据疾病建立对应标准

Nicola Whiffin等提出用疾病的统计数据(如发病率,外显率,等位基因贡献率等)建立量化过滤参考标准,提高过滤的特异性。

5

总结

1、人群频率数据库作为遗传病诊断的重要参考工具,需要建立准确有效的参考标准。

2、随着人群数据库的质量不断提高,参考价值也不断提升,但同时也需要注意其相应问题。

3、数据库参考标准不仅需要对现有标准进行改进,更需要探索新的参考标准,提高数据库的使用价值。

NGS基因诊断率能力提高之路径

多维度、多学科、多角度,合共同之力解决问题。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180304G0RQ9G00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券