前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nucleic Acids Res.|华大智造联合复旦大学发布人类基因组轻量级语言模型,整合卷积层以碱基分辨率解释非编码区

Nucleic Acids Res.|华大智造联合复旦大学发布人类基因组轻量级语言模型,整合卷积层以碱基分辨率解释非编码区

作者头像
智能生信
发布2022-12-29 17:44:30
5160
发布2022-12-29 17:44:30
举报
文章被收录于专栏:智能生信智能生信

编辑 | 龙文韬 李仲深

论文题目:

Integrating convolution and self-attention improves language model of human genome for interpreting non-coding regions at base-resolution

一、背景和摘要

2003 年,人类基因组计划 (HGP) 成功地将“生命之书”数字化。人们确信生物结构和功能本质上编码在基因组序列中。人类基因组这本生命之书蕴含了人类遗传学的大量信息,其中占整个基因组 98% 以上的非编码区执行着重要但很大程度上未知的调控功能。结合更宽区域的DNA序列,对于理解调控变异的功能效应至关重要,这需要强大且语义丰富的表征模型来捕获序列中的高阶复杂性。

近期华大智造研发团队联合复旦大学在Nucleic Acids Research(IF=19.160)发表了题为"Integrating convolution and self-attention improves language model of human genome for interpreting non-coding regions at base-resolution”的研究成果。研究人员将人类基因组与自然语言概念类比,把人类基因组这本生命之书看作类似于由单词、字符和短语组成的大型文档,开发了一种基于自监督学习的轻量级人类基因组语言模型——LOGO(Language Of GenOme)。利用ALBERT版本的Transformer架构,通过模型微调可被迁移用于序列标记任务(启动子识别、增强子-启动子相互作用预测、染色质状态预测)和非编码变异优先排序任务。

实验表明,LOGO在启动子识别、增强子-启动子相互作用预测分别有15%和4.5%的效果提升。LOGO在数千个染色质特征上展示了最先进的多任务预测能力。与有监督模型DeepSEA和最近基于BERT的DNA语言模型相比,LOGO只采用了1%-3%的模型参数量就能达到高性能水平。此外,LOGO的研究人员通过创新性地引入具有局域性的一维卷积,有效提高了人类疾病相关非编码变异优先排序任务的灵敏度和特异性,并将LOGO用来解读2型糖尿病(T2D)的GWAS信号并推断潜在的调控机制。证明了LOGO是一个准确、快速、可扩展和健壮的框架,可用于解释非编码区以及在碱基分辨率下进行变异优先排序。

二、模型方法与结果

2.1 LOGO人类参考基因组预训练模型架构

LOGO共有两个部分:(1)在人类参考基因组hg19上完成预训练;(2)通过微调将LOGO应用于多个下游任务。LOGO采用了基于自注意的Transformer架构,使用一种轻量级的语言模型(ALBERT),只有2层编码网络,包含256个hidden unites 和8个注意力头。作者将30亿全基因组序列划分为一段段1000bp或者2000bp的序列,并把输入的基因组序列由连续的k-mer标记分割,接着通过Masked语言模型(LM)任务学习1000 bp或2000 bp背景下的token嵌入。作者使用[CLS] token作为LOGO预训练模型提取的全局特征,以此代表每个输入序列的聚合表示,后续用于不同的下游序列分类任务。[SEP]标记表示每个输入序列(方法)的结束。

Fig 1 LOGO概述

2.2 LOGO下游任务模型

作者将LOGO预训练模型作为起始模型权重,通过微调LOGO用于启动子识别(使用LOGO-P模型)、增强子-启动子相互作用预测(使用LOGO-EPI模型)、染色质特征预测(使用LOGO-919/LOGO-2002模型)以及疾病相关的变异优先排序任务(使用过LOGO-E2E/LOGO-C2P模型),并分别达到了SOTA。

对于启动子识别和增强子-启动子互作预测任务,LOGO学习了人类参考基因组k-mers的上下文语义表示,并实现了启动子预测和增强子-启动子相互作用预测的最先进性能。(A)作者对不同kmers处理DNA序列的预训练模型进行性能比较,发现预训练模型准确性(ACC)在epoch=5之后趋于稳定。其中3-mer获得了最高准确率。(B)绘制了不同k-mer的单轮LOGO预训练时间。k越大,由于词汇量越大,训练时间越长。(C)预训练LOGO在增强子-启动子相互作用预测任务(LOGO-EPI)上进行了微调,并与DeepTACT在启动子捕获Hi-C (PCHi-C)数据集上进行了评估。(D)使用5-mer标记化的预训练LOGO (LOGO-5-mer)在启动子预测任务中进行微调,并与EPDnew数据库中的启动子序列DeeReCT-PromID进行了评估,包括有TATA-box、没有TATA-box以及同时包括两者的启动子序列。此外,为了利用上现有生信数据库的注释信息,作者将GenBank注释知识嵌入到LOGO (LOGO-k-5-mer),发现可进一步提高启动子识别任务的性能。比如将GenBank收录的CDS、外显子、增强子、绝缘子、保守区、蛋白结合位点、假基因、DNAseI超敏位点、核苷酸裂解位点、沉默子和基因等11个注释项以one-hot编码形式引入,作为知识输入。

Fig 2

对于染色质特征预测任务,经过微调的LOGO在染色质特征预测任务上,在参数大小显著减少的情况下仍优于DeepSEA,且训练时间更少。(A)通过ROC曲线比较DeepSEA(上)和LOGO-919(下)在1000 bp范围内690个转录因子结合位点(TF)、125个dna酶超敏位点(DHSs)和104个组蛋白修饰位点(HM)的预测能力。(B)作者尝试增加更多的箱线图显示了由LOGO-2002和LOGO-3357预测的三种特征的AUROC。箱形图显示中位数、上四分位数和下四分位数,以及最高和最低值(不包括异常值)。(C)图显示了DeepSEA、ExPecto、LOGO-919、LOGO-2002和LOGO-3357的参数大小。(D)图表显示了DeepSEA、LOGO-919、LOGO-2002和LOGO-3357的训练时间比较。

Fig 3

对于变异优先排序任务,LOGO利用多input方案分别编码参考等位基因、备选等位基因和相应的改变位置作为输入。此外,作者创新性地为LOGO下游任务模型引入位置敏感的编码方案和1维卷积,并证明这有助于对遗传性疾病和复杂性状或疾病的功能变异优先排序预测。作者定义了两种微调方案来实现:一种是基于二值化标签的端到端模型(LOGO-E2E),另一种是基于两阶段的染色质特征预测模型(LOGO-C2P),结果均达到SOTA,见Fig4B、Fig4C、Fig4D。

Fig 4

作者还证明了LOGO可用于预测非编码变异在碱基分辨率下的功能效应,可为研究复杂疾病提供机制见解,见Fig4。作者认为,基于转录因子结合基序TF、DNA可及性DHS、组蛋白修饰HM三组染色质特征的预测信号,可评估复杂疾病相关的功能变异,作者选择2型糖尿病(T2D)为例来验证了这一假设:

1)作者使用超几何检验用于评价LOGO预测处于激活状态的染色质特征是否在某些类别中富集。作者发现这些SNPs在共有27个激活信号的类别中有18个功能富集,包括平滑肌 (n = 51), 类淋巴母细胞(n = 45),脂肪(n = 20),肌肉(n = 63)、脾(n = 10),和肝脏(n = 48) , 这与多年来的T2D发病机制研究一致,胰岛素主要作用于肝脏、肌肉和脂肪作为T2D相关组织(Fig4A)。

2)作者采用了饱和诱变法,以一种视觉上可解释的方式解释几个t2d相关的SNP,比如,LOGO正确预测了次等位基因相对于主等位基因的相关染色质特征的强烈差异,rs11257655位点与强胰岛增强子区域重叠,并调节已知基序转录因子FoxA2,LOGO提示胰岛内TF结合紊乱可能是T2D的潜在病因机制(Fig4E)。

三、总结与讨论

基因组序列包含了关于其所属物种的大量生物信息。尽管大量的高通量生化分析已经被用来表征这些序列,但基因组的复杂性使得如何解读它们成为一个巨大的挑战。现在迫切需要新的计算方法来帮助解释基因组的底层关系。受最近NLP和CV领域取得的巨大进展的激励,作者提出了一种名为LOGO的轻量级语言模型,利用ALBERT版本的Transformer架构自监督地学习人类基因组序列的内在双向表示,通过实验证明了LOGO可被快速地、有效地应用在序列标记等多个下游任务并取得更好的性能。在染色质特征预测任务中,与美国普林斯顿大学的DeepSEA相比,LOGO在更短的计算时间内显著减少了参数,实现了更高的准确率。此外,作者还创新性地将卷积与一种新的输入编码方案结合起来进行碱基分辨率下的基因组非编码区解释。以上这些结果有力地证明了可通过预训练方式,准确、快速、可扩展和稳健地建模人类基因组。

本文在生物序列和人类语言之间做了一个类比,即基因组具有不同的词或短语组合,而不损害固有的语法约束。总之,LOGO提供了一种通用策略,既能表征人类基因组的全局信息,也能表征人类基因组的局部特征,并为在国家基因组计划的蓬勃发展中发掘不断增长的全基因组测序数据的更多价值提供了帮助。

需要指出的是,LOGO仅在人类参考基因组hg19上进行训练。作者设想,在预训练阶段引入基因组多样性可以进一步提高模型的表征能力。这可以通过将目前在人类种群和其他相关外群物种的所有变异喂入LOGO学习来实现,这将自动学习整个基因组的进化保守性和上下文依赖性约束,这些学习到的内在表示可反过来促进变异功能预测和进化景观的发现。

值得注意的是,由于Transformer模型的内在特性导致它无法捕捉更长的范围内的信息,这对于模拟人类基因组的远端调控依赖至关重要。最近,谷歌DeepMind的研究人员开发了Enformer,通过结合扩展卷积和Transformers来模拟最远100kb距离的交互,并成功地将远程增强子与目标基因连接起来。在未来的研究中,LOGO的研究人员将探讨通过整合层次交互机制来设计更长程LOGO是否能解决这一问题。


论文链接

https://doi.org/10.1093/nar/gkac326

参考文献

1)Zhou,J. and Troyanskaya,O.G. (2015) Predicting effects of noncoding variants with deep learning–based sequence model. Nat. Methods, 12, 931–934.

2)Zhou,J., Theesfeld,C.L., Yao,K., Chen,K.M., Wong,A.K. and Troyanskaya,O.G. (2018) Deep learning sequence-based ab initio prediction of variant effects on expression and disease risk. Nat. Genet., 50, 1171–1179.

3)Avsec, Ž., Agarwal, V., Visentin, D. et al. Effective gene expression prediction from sequence by integrating long-range interactions. Nat Methods 18, 1196–1203 (2021). https://www.nature.com/articles/s41592-021-01252-x

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档