如何解决遗传分析中的隐患
——基因结构注释不全
好的工具,让复杂遗传病易于被诊断
如果觉得内容对您有用,欢迎分享
如果有不同观点或建议,欢迎留言
本期要讲什么
当进行遗传分析时
经常会遇到如下情况
“OMIM中明确报道基因未发现可疑变异”
“非编码区中发现一个罕见变异但无法分析”
这两种情况通常会导致
阴性或结果模糊的报告
这两类问题的一个可能原因是
基因结构注释不全
例如一些目前认为是
不重要非编码区的部分
其实有非常重要的生物学功能
而由于这些信息的缺失
导致测序时未覆盖这些区域
或者变异被标注为内含子变异
一个新的研究结果
可能会给这两类问题
带来解决的方向
这个研究的思路是
利用GTEx的RNA-seq组学信息
弥补缺失基因功能注释
提供更多分析的证据
1
从OMIM数据库说起
随着NGS技术的普及
越来越多的机构
把WES甚至WGS
当作遗传病分析的首选
孟德尔遗传疾病分析
最常用的参考数据库
非OMIM莫属
依靠其大量的专业人员维护
基因—疾病关系可信度非常高
是遗传分析证据的重要参考
2
遗传检测的变异注释
用WES或WGS做遗传病检测时
一个关键的步骤
分析结果中的变异性质
例如参考ACMG变异分类指南
对检测到的变异
进行致病性分类(例如pathogenic)
当目的基因上
未发现候选致病变异时
就只能出非阳性报告
在这个过程中
变异的注释非常依赖转录本参考数据库
例如refseq或ensembl
这些变异对基因的影响
直接影响ACMG指南的使用
但ACMG指南
对非编码区变异的证据支持很弱
所以非编码区的变异
基本不在遗传分析的分析范围之内
这可能会漏掉许多
非常重要
但由于基因功能注释不全
导致无法分析的
非编码区变异
3
如何解决注释不全
目前常用的基因注释数据库
refseq与ensembl
依赖常规数据库和生物信息学流程
对基因组进行基因标注
例如下图中的注释流程(ensembl与refseq注释流程)
但目前的注释数据中
有许多可能遗漏的部分
例如依赖同源基因的方法
会漏掉人类特有的基因
依赖转录组数据的方法
会漏掉很多差异表达的基因
由于流程中存在的问题
导致基因的功能注释不完整
从而影响遗传病分析时的判断
为了解决这个问题
一个来自多个研究机构的小组
利用GTEx数据库中的数据
弥补这些注释的空白
4
GTEx数据库是什么
GTEx数据库
是一个NIH支持的疾病研究项目
主要目的是研究
基因型与组织特异性基因表达的关系
研究变异在转录组水平的作用机制
因此数据库中
有大量人类组织的转录组数据
5
如何解决注释不全(续)
研究小组通过
研究41种不同组织的RNA差异
发现有很多转录数据
尤其是来自脑组织的RNA数据
在refseq或ensembl中未被注明
平均每个组织
有8.4M区域在ensembl v92数据库中
标记为非转录区域
不同组织
在GTEx数据中
发现在RNA中的区域
被ensembl v92数据库
标记为非编码区的部分
分析的具体过程在此不详细说明
主要思路如下
分析RNA数据中
跨越标注区域与未标注区域的部分
这些未标注的区域
通过参数优化和统计学检验
保留的数据
被认为是
有生物学功能但尚未标注的基因功能区域
这些标注差异
大多数都是由于
组织表达的差异性
导致参考数据库的信息缺失
通过对OMIM数据库的分析
发现63%的OMIM明确疾病相关基因
存在基因功能标注不全
其中72%的的标注不全对应疾病受累器官
脑组织的注释不全比例最大
6
数据的潜在价值
通过GTEx数据的补充
一些疾病的相关基因变异注释
可以变得更有参考价值
尤其是脑神经类疾病
由于其功能复杂性
组织特异转录现象非常普遍
而数据库中对特异转录标注非常缺乏
因此GTEx的挖掘数据非常适合这类疾病
对于其他组织的孟德尔疾病
GTEx的挖掘数据也会有潜在作用
文章中举了两个例子
例1:MYH3基因
MYH3基因会导致
distal arthrogryposis的多种型
通过GTEx的数据分析
发现有一段117bp
非保守但高限制的序列
只在肌肉组织中特异表达
但数据库中尚未标注
此段序列存在潜在的分析价值
例2:ERLIN1基因
ERLIN1基因
会导致spastic paraplegia 62型
此疾病的患者会有部分存在小脑症状
但原因尚未明确
通过GTEx数据库的分析
发现一段72bp的序列
只在小脑中表达
但这段序列同样尚未标注
7
总结
随着测序技术的发展
基因组序列也变得越来越完整
但对于基因组功能的标注
一直是个高难度的问题
通过其他组学数据的辅助
如RNA-seq,CHIP-seq等
会对基因组的功能注释提供很大帮助
当基因组功能注释更加完整时
会提供更丰富参考信息
辅助遗传病分析的决策
特别注明
GTEx分析的新表达区域
可能不在现有WES的target范围内
参考数据时请留意
参考的文章尚在预览阶段
相应数据也尚未放出
感兴趣的小伙伴
请持续关注文章的动态
如果对文章内容有评价或不同看法,
欢迎到行业大咖顾大夫创建的论坛中讨论
NGS基因诊断率能力提高之路径
多维度、多学科、多角度,合共同之力解决问题。
领取专属 10元无门槛券
私享最新 技术干货