前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. | 基因组语言模型预测蛋白质共同调控和功能

Nat. Commun. | 基因组语言模型预测蛋白质共同调控和功能

作者头像
DrugAI
发布2024-04-28 10:58:04
1490
发布2024-04-28 10:58:04
举报
文章被收录于专栏:DrugAIDrugAI

今天为大家介绍的是来自Peter R. Girguis团队的一篇论文。解读基因与其基因组环境之间的关系是理解和工程生物系统的基础。机器学习在从大规模蛋白质序列数据集中学习隐藏的序列-结构-功能范式关系方面显示出潜力。然而,迄今为止,利用更高阶的基因组环境信息的尝试还很有限。进化过程决定了基因在不同系统发育距离中所处的基因组环境的特异性,这些新出现的基因组模式可以用来揭示基因产物之间的功能关系。在这里,作者训练了一个基因组语言模型(gLM),通过数百万的宏基因组来学习基因之间潜在的功能和调控关系。

进化过程导致了蛋白质序列、结构和功能之间的联系。由此形成的序列-结构-功能范式长久以来为解释大量基因组数据提供了基础。近期在基于神经网络的蛋白质结构预测方法以及更近期的蛋白质语言模型(pLMs)方面的进展表明,非监督学习中以数据为中心的方法可以表征由进化塑造的这些复杂关系。到目前为止,这些模型大多将每个蛋白质视为一个独立的单体实体。然而,蛋白质是在基因组中与其他蛋白质一起编码的,一个蛋白质出现的特定基因组环境是由进化过程决定的,其中每一个基因的获得、丢失、复制和转位事件都受到选择的影响。这些过程在细菌和古菌基因组中尤为明显,频繁的水平基因转移(HGT)塑造了基因组的组织和多样性。因此,基因、它们的基因组环境以及基因功能之间存在内在的进化联系,这可以通过分析大型宏基因组数据集中出现的模式来探索。

为了弥补基因组环境与基因序列-结构-功能之间的差距,作者开发了一个基因组语言模型(gLM),该模型学习基因的上下文表征。gLM使用作为输入的pLM嵌入,这些嵌入编码了基因产物的关系属性和结构信息。模型基于变换器架构,并通过遮蔽语言建模目标使用数百万未标记的宏基因组序列进行训练,假设它能够关注多基因序列的不同部分,将导致基因功能语义和调控语法的学习。

模型部分

图 1

语言模型,如BERT模型,通过对大型语料库进行无监督训练来学习自然语言的语义和语法。在遮蔽语言建模中,模型的任务是重构被破坏的输入文本,其中一部分词语被遮蔽。通过采用变换器神经网络架构,在语言建模性能上取得了重大进展,其中每个标记(即词语)能够关注其他标记。为了建模基因组序列,作者在七百万个宏基因组片段上训练了一个19层的变换器模型(见图1A),这些片段由来自MGnify数据库。基因组序列中的每个基因由使用ESM2 pLM生成的1280 维特征向量(无上下文蛋白质嵌入)表示,并与方向特征(正向或反向)连接。对于每个序列,随机遮蔽15%的基因,模型学习使用基因组环境预测遮蔽标签。基于在特定基因组环境中可以合法找到不止一个基因的洞察,作者允许模型进行四种不同的预测,并预测它们的相关概率。因此,模型不是预测它们的平均值,而是可以近似多个可能占据基因组生态位的基因的底层分布。

上下文基因嵌入捕获了基因的语义

图 2

生物体中从基因到基因功能的映射不是一对一的。类似于自然语言中的单词,一个基因可以根据其上下文赋予不同的功能,并且许多基因具有相似的功能(即趋同进化、远缘同源性)。作者使用gLM在推理时生成了蛋白质嵌入(图1B),并检查了这些嵌入中捕获的“语义”信息。正如单词在不同类型的文本中可能具有不同含义一样(图2A),作者发现出现在多个环境(生物群系)中的基因的上下文化蛋白质嵌入倾向于根据生物群系类型进行聚类。作者在训练数据库(MGYPs)中识别出31种蛋白质,这些蛋白质出现次数超过100次,并且根据MGnify的分类至少在“宿主相关”、“环境”和“工程”生物群系中各出现了20次。gLM的上下文蛋白质嵌入对大多数(n=21)捕获了生物群系信息。例如,编码“翻译启动因子IF-1”的基因在多个生物群系中多次出现。虽然输入到gLM的(无上下文的蛋白质嵌入;ESM2表示)在所有出现中都是相同的,但gLM的输出(上下文化蛋白质嵌入)则与生物群系类型聚类(图2B)。这表明一个基因占据的多样化基因组环境对不同的生物群系具有特异性,意味着具有生物群系特定的基因语义。

作者探索了一个生态学上重要的基因组“多义性”(由同一词语赋予的多重意义;图2C)的例子,即甲基辅酶还原酶(MCR)复合体。MCR复合体能够执行一个可逆反应(图2D中的反应1),其中正向反应导致甲烷的产生(产甲烷作用),而反向反应则导致甲烷的氧化(甲烷营养作用)。值得注意的是,类似于单词的语义意义存在于一个范围上,且在某一语境中单词可以有多个语义上合适的意义(图2C),MCR复合体可以根据上下文赋予不同的功能。以前的报告显示了ANME(特别是ANME-2)执行产甲烷作用的能力,以及在特定生长条件下产甲烷古菌进行甲烷氧化的情况。这些蛋白的无上下文ESM2嵌入(图2E)显示出很少的组织性,ANME-1和ANME-2的McrA蛋白之间几乎没有分离。然而,上下文gLM嵌入(图2F)显示出McrA蛋白的明显组织性,其中ANME-1 McrA蛋白形成一个紧密的簇,而ANME-2 McrA蛋白与产甲烷古菌形成一个簇。这种组织反映了McrA所在的生物体之间的系统发育关系,以及ANME-1中MCR复合体与ANME-2和产甲烷古菌中发现的MCR复合体的明显操纵子和结构差异。

描述未知基因

宏基因组序列中包含许多功能未知或一般性的基因,其中一些基因差异如此之大,以至于它们与数据库中已注释部分的序列相似性不足。在数据集中,3080万蛋白质序列中有19.8%无法与任何已知注释关联,并且有27.5%的蛋白质无法使用最近的深度学习方法(ProtENN)与任何已知的Pfam结构域关联。理解这些蛋白在其生物和环境上下文中的功能角色仍是一个主要挑战,因为大多数包含这些蛋白的生物体难以培养。在微生物基因组中,由于功能关系(例如蛋白质-蛋白质相互作用、基因共调控)施加的选择压力,具有相似功能的蛋白质在相似的基因组环境中被发现。基于这一观察,作者假设上下文化将提供更丰富的信息,使未注释基因的分布更接近于已注释基因的分布,并使用无上下文的pLM嵌入和上下文化的gLM嵌入比较了数据集中未注释和已注释蛋白质部分的分布。在gLM嵌入中未注释和已注释基因分布之间的差异统计上显著低于在pLM嵌入中的差异。这表明使用gLM嵌入将可培养且研究良好的菌株中验证的知识转移到广泛未培养的宏基因组序列空间的潜力更大。

上下文化信息提高了酶功能预测的效果

图 3

为了测试蛋白质的基因组环境可以用来辅助功能预测的假设,作者评估了上下文化如何提高蛋白质表示的表达性,以用于酶功能预测。首先,作者生成了一个自定义的MGYP-EC数据集,其中训练和测试数据按照每个EC类别的30%序列同一性进行划分。其次作者应用线性探针(LP)来比较每个gLM层的表示表达性,无论是否掩盖了被查询的蛋白质。通过掩盖被查询的蛋白质作者评估gLM仅从其基因组环境中学习给定蛋白质的功能信息的能力,而不传播来自蛋白质pLM嵌入的信息。最后观察到,与酶功能相关的大部分上下文信息是在gLM的前六层中学到的。作者还证明了单独的上下文信息就可以预测蛋白质功能,准确率高达24.4 ± 0.8%。在没有掩盖时,gLM可以将存在于上下文中的信息与每个被查询蛋白的原始pLM信息结合起来,gLM嵌入的表达性在较浅层也有所增加,准确率在第一隐藏层达到了高达51.6 ± 0.5%。这比无上下文pLM预测准确率高出了4.6 ± 0.5%(图3A)和平均精度提高了5.5 ± 1.0%(图3C)。因此证明了gLM从上下文中学习的信息与pLM嵌入中捕获的信息是正交的。作者还观察到在gLM的更深层中,酶功能信息的表达性递减;这与以前对大型语言模型(LLMs)的研究一致,其中更深的层专门用于预训练任务,并且与以前对LLMs的研究一致,其中最佳表达层取决于特定的下游任务。

编译 | 曾全晨

审稿 | 王建民

参考资料

Hwang, Y., Cornman, A.L., Kellogg, E.H. et al. Genomic language model predicts protein co-regulation and function. Nat Commun 15, 2880 (2024).

https://doi.org/10.1038/s41467-024-46947-9

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档