首页
学习
活动
专区
工具
TVP
发布

gnomAD v2.1 更新后的最大人群测序数据库 到底增强了什么

gnomAD v2.1

更新后的最大人群测序数据库

到底增强了什么

好的工具,让复杂遗传病易于被诊断

如果觉得内容对您有用,欢迎分享

如果有不同观点或建议,欢迎留言

为什么突然写gnomAD?

看到题目一些小伙伴可能会有疑问

“gnomAD v2.1不是出来两个多月了吗”

“我们早都知道了,为什么现在才写”

没错

在10月中旬

The MacArthur lab就正式公布了

gnomAD v2.1的相关信息和数据

但在与一些做解读的朋友沟通后却发现

有不少人只把gnomAD当作一个AF数据库

其实gnomAD v2.1里

有许多非常有价值的数据

可以作为辅助解读的信息

如果只是当作AF数据库使用

会浪费很多宝贵资源

正文开始

说到参考人群等位基因频率数据库

目前最受欢迎的

我说是gnomAD

大家大概不会有意见吧

毕竟

这可是目前

数据量最大(样本量141,456)

贡献者最多(上百个组织参与)

数据最精细

(15个细分人种 + 五个表型类区分)

的公开数据库了

gnomAD第一版

便有

123126个WES

15469个WGS数据

惊人的数据量

迅速碾压其他数据库

如今

gnomAD于今年10月又带来了的

全面升级的v 2.1版本

更多的数据

更精细的数据分析

“绝对你是没有玩过的船新版本”

但这么一个强大的数据库

许多人只把他当作一个allele频率参考数据库用

所以今天就介绍下

gnomAD v2.1的一些强大之处

1

重要更新内容

更新后的gnomAD可不是简单的

计算了新增人群的等位基因频率

其实做了非常多的流程和方法学的优化

重要的更新有

改进了基因的变异耐受性计算方法

改进了样本和变异质控的标准

细化了欧洲和东亚人的人群分类

新增了以表型分类的频率统计人群

增加了新的变异注释内容

2

解读需要知道的内容

改进了基因的变异耐受性计算方法

评估基因变异耐受性

是判断基因

对于人类功能重要性的一个重要参考

在gnomAD v2.1之前

基因的LOF变异耐受性由pLI计算

主要是通过

对loss-of-function变异出现频率进行判断

现在由新方法

observed / expected score(oe)代替

主要为了解决pLI计算方法的一些缺陷

如无法区分由于样本数量引起的pLI值异常

而通过oe值的CI区间就容易判断

要注意的是

oe值和pLI的计算方式相反

即值越小耐受性越低

细化了欧洲和东亚人的人群分类

进一步将欧洲和东亚人种做细化

欧洲人被细化成7个亚群体

东亚人被细化成3个亚群体

这些细化的亚群体

对于相应人群的数据分析(人群control)

以及人种最大等位基因频率的计算

提供了更多的信息

但遗憾的是依然没有中国人群

新增了以表型分类的频率统计人群

这是一个非常有价值的信息

根据表型种类

不分人种的做了频率统计

例如

没有神经系统疾病的人群

不同项目的正常对照样本

非TOPMed项目的样本

(有heart, lung, blood,或sleep疾病的样本)

这些细分的数据

可以更好的针对不同疾病提供信息

例如分析神经类疾病时

更适合参考没有神经类疾病的数据

增加了新的变异注释内容

两个非常有意义的改动:

改动1

根据maximum credible population AF方法

通过考虑发病率和外显率数据

对人群频率做了修正

更好的适应频率过滤

举个例子

假如一个变异对应疾病的外显率比较低

那么用0.05等硬性过滤

会漏掉潜在的致病变异

或者对应疾病的发病率极低

用0.05等硬性过滤

会增加很多潜在的假阳性数据

gnomAD根据疾病的已知

发病率/外显率/最大致病变异携带率

根据上图的公式计算了

正常变异的理论最低频率(柏松Q95上限矫正)

当过滤AF时

如果gnomAD提供了这个理论值

如上图的0.01388(WES)

这时AF的过滤cutoff

可以从0.05改为0.01388

针对不同显隐性疾病

例如LQTS或PKU

结合疾病的统计数据

对参考人群进行AF矫正

更符合对应疾病的遗传学原理

同时使用ACMG指南对应条目时

如PM2/BS1时,证据性会更强

改动2

对变异频率做了年龄区分

这也是一个非常实用的数据

对于不同年龄段表现的疾病

尤其是对于晚发疾病

有非常大的参考意义

例如晚发型帕金森氏症等疾病

在青年正常人群中的携带率

会高于老年正常人群

参考对应发病年龄的数据

对疾病分析会更有参考意义

3

生信需要知道的内容

改进了样本和变异质控的标准

样本指控的重点改进是

增加了测序平台区分

(减少方法学不同造成的差异)

祖源分析用新方法UMPD替换了PCA

(结果更准确)

变异质控的重点改进是

改进了变异过滤的random forest模型的特征

(结果更准确)

其他一些改动

例如AF的表示方式

从全大写换成了正常方式

半合子计算的改动等

由于篇幅原因

就不多做介绍了

4

个人建议

在使用gnomAD时

不要只关注人群频率(AF)

gnomAD v2.1中的新增内容

增加了许多非常有价值的数据和思路

利用好这些信息

才能更有效的进行数据解读

解读的小伙伴们

解读时获得的信息越全面

越有可能发掘到与数据最相关的信息

不能只依赖hard filter

例如晚发疾病要参考对应年龄的数据

做AF过滤时

要考虑对应疾病的发病率/外显率等等

只有通过参考更有效的信息

才能有效的进行解读决策

最后

特别感谢诊断大师群的

王玲姐和占辉兄的建议和指正

如果对文章内容有评价或不同看法,

欢迎到行业大咖顾大夫创建的论坛中讨论

NGS基因诊断率能力提高之路径

多维度、多学科、多角度,合共同之力解决问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181225G0FLC100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券