首页
学习
活动
专区
工具
TVP
发布

如何解决遗传分析中的隐患——基因结构注释不全

如何解决遗传分析中的隐患

——基因结构注释不全

好的工具,让复杂遗传病易于被诊断

如果觉得内容对您有用,欢迎分享

如果有不同观点或建议,欢迎留言

本期要讲什么

当进行遗传分析时

经常会遇到如下情况

“OMIM中明确报道基因未发现可疑变异”

“非编码区中发现一个罕见变异但无法分析”

这两种情况通常会导致

阴性或结果模糊的报告

这两类问题的一个可能原因是

基因结构注释不全

例如一些目前认为是

不重要非编码区的部分

其实有非常重要的生物学功能

而由于这些信息的缺失

导致测序时未覆盖这些区域

或者变异被标注为内含子变异

一个新的研究结果

可能会给这两类问题

带来解决的方向

这个研究的思路是

利用GTEx的RNA-seq组学信息

弥补缺失基因功能注释

提供更多分析的证据

1

从OMIM数据库说起

随着NGS技术的普及

越来越多的机构

把WES甚至WGS

当作遗传病分析的首选

孟德尔遗传疾病分析

最常用的参考数据库

非OMIM莫属

依靠其大量的专业人员维护

基因—疾病关系可信度非常高

是遗传分析证据的重要参考

2

遗传检测的变异注释

用WES或WGS做遗传病检测时

一个关键的步骤

分析结果中的变异性质

例如参考ACMG变异分类指南

对检测到的变异

进行致病性分类(例如pathogenic)

当目的基因上

未发现候选致病变异时

就只能出非阳性报告

在这个过程中

变异的注释非常依赖转录本参考数据库

例如refseq或ensembl

这些变异对基因的影响

直接影响ACMG指南的使用

但ACMG指南

对非编码区变异的证据支持很弱

所以非编码区的变异

基本不在遗传分析的分析范围之内

这可能会漏掉许多

非常重要

但由于基因功能注释不全

导致无法分析的

非编码区变异

3

如何解决注释不全

目前常用的基因注释数据库

refseq与ensembl

依赖常规数据库和生物信息学流程

对基因组进行基因标注

例如下图中的注释流程(ensembl与refseq注释流程)

但目前的注释数据中

有许多可能遗漏的部分

例如依赖同源基因的方法

会漏掉人类特有的基因

依赖转录组数据的方法

会漏掉很多差异表达的基因

由于流程中存在的问题

导致基因的功能注释不完整

从而影响遗传病分析时的判断

为了解决这个问题

一个来自多个研究机构的小组

利用GTEx数据库中的数据

弥补这些注释的空白

4

GTEx数据库是什么

GTEx数据库

是一个NIH支持的疾病研究项目

主要目的是研究

基因型与组织特异性基因表达的关系

研究变异在转录组水平的作用机制

因此数据库中

有大量人类组织的转录组数据

5

如何解决注释不全(续)

研究小组通过

研究41种不同组织的RNA差异

发现有很多转录数据

尤其是来自脑组织的RNA数据

在refseq或ensembl中未被注明

平均每个组织

有8.4M区域在ensembl v92数据库中

标记为非转录区域

不同组织

在GTEx数据中

发现在RNA中的区域

被ensembl v92数据库

标记为非编码区的部分

分析的具体过程在此不详细说明

主要思路如下

分析RNA数据中

跨越标注区域与未标注区域的部分

这些未标注的区域

通过参数优化和统计学检验

保留的数据

被认为是

有生物学功能但尚未标注的基因功能区域

这些标注差异

大多数都是由于

组织表达的差异性

导致参考数据库的信息缺失

通过对OMIM数据库的分析

发现63%的OMIM明确疾病相关基因

存在基因功能标注不全

其中72%的的标注不全对应疾病受累器官

脑组织的注释不全比例最大

6

数据的潜在价值

通过GTEx数据的补充

一些疾病的相关基因变异注释

可以变得更有参考价值

尤其是脑神经类疾病

由于其功能复杂性

组织特异转录现象非常普遍

而数据库中对特异转录标注非常缺乏

因此GTEx的挖掘数据非常适合这类疾病

对于其他组织的孟德尔疾病

GTEx的挖掘数据也会有潜在作用

文章中举了两个例子

例1:MYH3基因

MYH3基因会导致

distal arthrogryposis的多种型

通过GTEx的数据分析

发现有一段117bp

非保守但高限制的序列

只在肌肉组织中特异表达

但数据库中尚未标注

此段序列存在潜在的分析价值

例2:ERLIN1基因

ERLIN1基因

会导致spastic paraplegia 62型

此疾病的患者会有部分存在小脑症状

但原因尚未明确

通过GTEx数据库的分析

发现一段72bp的序列

只在小脑中表达

但这段序列同样尚未标注

7

总结

随着测序技术的发展

基因组序列也变得越来越完整

但对于基因组功能的标注

一直是个高难度的问题

通过其他组学数据的辅助

如RNA-seq,CHIP-seq等

会对基因组的功能注释提供很大帮助

当基因组功能注释更加完整时

会提供更丰富参考信息

辅助遗传病分析的决策

特别注明

GTEx分析的新表达区域

可能不在现有WES的target范围内

参考数据时请留意

参考的文章尚在预览阶段

相应数据也尚未放出

感兴趣的小伙伴

请持续关注文章的动态

如果对文章内容有评价或不同看法,

欢迎到行业大咖顾大夫创建的论坛中讨论

NGS基因诊断率能力提高之路径

多维度、多学科、多角度,合共同之力解决问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190107G0KABC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券