前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一个用于量化生物化学下游任务中跨模态蛋白质表示的框架

一个用于量化生物化学下游任务中跨模态蛋白质表示的框架

作者头像
DrugAI
发布2023-08-31 11:57:38
2140
发布2023-08-31 11:57:38
举报
文章被收录于专栏:DrugAI

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自Peng Yin研究团队的一篇关于蛋白质表征的论文。蛋白质是生命的基本构建单元,在生物学中扮演着重要的功能角色。作者提出了一个多模态深度学习框架,用于融合约1百万个蛋白质序列、结构和功能注释(MASSA)。通过多任务学习过程和五个特定的预训练目标,提取了细粒度的蛋白质域特征。通过预训练,多模态蛋白质表示在特定的下游任务中取得了最先进的性能,如蛋白质性质(稳定性和荧光性),蛋白质-蛋白质相互作用,以及蛋白质-配体相互作用,同时在二级结构和远源同源性任务中取得了竞争性结果。

蛋白质是生命的基本构建单元,在生物学中扮演着重要的功能角色。天然蛋白质由氨基酸通过肽键连接而成,形成线性序列,并通过折叠成其3D或三级结构来执行其生物功能。从蛋白质的序列、结构和功能中理解其特性,是21世纪最重要的科学挑战之一,因为这对于阐明疾病机制和药物研发至关重要。近年来,蛋白质数据(例如序列、结构和功能注释)的爆炸性增长为使用计算方法,尤其是人工智能,研究蛋白质提供了丰富的资源。蛋白质可以被视为生物学的自然语言,由多个氨基酸单词组成,因此,NLP语言模型可以很好地应用于蛋白质研究中。相应的蛋白质表示在许多蛋白质相关的下游应用中表现出色,如蛋白质稳定性和突变效应的预测。然而,蛋白质不仅仅是由氨基酸的线性序列组成,仅通过序列数据很难推断蛋白质的完整性。将蛋白质的结构或功能注释纳入语言模型是一个相对较新的发展。尽管这样的方法已经增强了模型的性能和应用,但仍面临挑战。许多独特和细粒度的蛋白质特性,例如功能单元域,尚未完全纳入预训练模型。此外,目前还没有度量标准来量化蛋白质表示已经预训练得有多好以及它对下游任务的适用性。在这里,作者提出了MASSA,一个多模态蛋白质表示框架,它将蛋白质序列、结构和功能注释的领域知识整合在一起(见图1)。生成的蛋白质表示将用于下游任务和跨任务学习过程的量化。值得注意的是,模型可以接受仅包含序列数据的输入用于下游应用。当一个蛋白质样本包含三种模态时,它们都作为输入,而对于缺少模态的样本,比如结构和基因本体术语信息被处理为掩码标记。

图 1

数据来源

图 2

作者收集了多个数据集,包括来自UniProt的蛋白质序列,来自RSCB PDB和AlphaFold蛋白质结构数据库的蛋白质结构,来自基因本体的GO注释,以及来自UniProtKB的蛋白质区域、模体和域信息。经过预处理后,构建的多模态数据集包含了约一百万个序列、结构、GO注释、蛋白质区域、模体和域的样本。这些多模态数据的数量和原始格式如图2a所示。

在这些数据中,蛋白质序列、结构和GO注释被用作训练输入,而区域、模体和域被用作训练目标。具体来说,术语“区域”指的是序列中的生物学感兴趣的区域,例如Q8BUZ1的第346到375个氨基酸,它们对应于与肌动蛋白的相互作用。模体是由形成特定几何排列并执行特定蛋白质功能的二级结构组成的集合。由于它们的长度较短且序列变异性较高,大多数模体不能通过计算方法准确预测。相比之下,域是一个独立的三维结构折叠单元,通常独立于蛋白质的其他组分而发挥功能。

在图2b中,所示蛋白质样本中的序列集“SSLSA”代表模体1。该部分的每个氨基酸都有其自己的位置、知识和类别。为了嵌入这些信息,作者采用了类似于自然语言处理中的命名实体识别策略的方法。具体而言,作者将每个类别视为命名实体,并将每个实体细分为单独的氨基酸组合,然后对每个组合进行分类。这种方法遵循BIOES标记法。例如,模体1可以分为集合{S、S、L、S、A},相应的类别集合是{B−Motif1、I−Motif1、I−Motif1、I−Motif1、E−Motif1}。B−Motif1、I−Motif1和E−Motif1分别代表模体1的“开始”、“内部”和“结束”组件。此外,非实体氨基酸(用黑色标记)被标记为“O”(实体外)。仅包含一个标记的实体被标记为“S”(单一),例如S−Motif3。

在进行命名实体预处理后,作者分析了类别的分布。模体有1364个类别,域有3383个类别,区域有10628个类别。如图2c所示,所有这些数据都呈现长尾分布,往往导致对模型训练的敏感性。因此,作者将每个分布长尾中的小的子类别合并为一个单独的“其他”类别。最后,最后得到了130个模体类别、712个域类别和222个区域类别。

模型部分

作者使用构建的多模态数据集对MASSA模型进行了预训练。预训练过程包含了三个步骤(见图1):对于序列、结构和功能GO注释的每个模态,进行特征提取。使用token级别的自注意力对序列和结构嵌入进行对齐和融合。然后,将得到的序列-结构嵌入与GO嵌入进行全局对齐。使用五个蛋白质特定的目标进行模型的预训练,包括屏蔽的氨基酸/基因本体预测和结构域/模体/区域的位置捕获。在第一步中,初始的序列和GO嵌入由蛋白质语言模型ESM-MSA-1b和作者提出的用于GO术语的图卷积网络GraphGO提供。ESM-MSA-1b的训练目标是屏蔽语言建模,这在蛋白质语言模型的预训练中广泛使用,也被应用于作者的模型。如前所述,该目标源自自然语言处理,旨在从大量氨基酸序列中提取蛋白质的语义信息。模型将输入序列经过ESM-MSA-1b处理,以获得模型的初始序列嵌入。

GO(Gene Ontology)是关于不同蛋白质功能的描述,涵盖了三个不同的本体类别:生物过程、分子功能和细胞组成。为了获得GO的初始嵌入,作者开发并训练了一个名为GraphGO的模型(见图1)。具体而言,作者构建了一个包含44733个GO节点和150322条边的图。在GraphGO中,作者使用了三个图卷积网络(GCN)层和两个训练目标,即链接预测和节点分类,来提取隐藏特征。如图2d所示,在GraphGO训练后,两个考虑的评估指标,即链接预测的AUC和节点分类的准确率,都达到了较高的水平(接近0.82)。此外,GO嵌入的t-SNE可视化(图2e)显示出在训练后三个本体类别的优秀聚类结果。这些结果表明GraphGO已经学习到了可靠的GO术语表示。

MASSA在构建的多模态数据集上进行了预训练,使用了一个均衡的多任务损失函数来实现五个蛋白质特定的预训练目标。在预训练过程中,多任务损失在多个epoch后仍然持续改善(图2f),这与之前的研究结果一致。预训练进行了150个epoch后停止,然后对模型进行了下游任务的评估。

实验结果

图 3

作者对TAPE中包含的多种蛋白质属性基准进行了分析,包括二级结构、远程同源性、荧光和稳定性基准。在这些基于序列的数据集上,作则会以两种不同的方式评估了模型与其他方法的性能:带有或不带有预训练目标。“不带有预训练目标”(仅包括图1中的步骤1和步骤2)表示模型是从头开始在下游任务上进行训练,而“带有预训练目标”(包括图1中的步骤1-3)表示模型是在完全预训练之后再进行微调。两个实验组只使用蛋白质序列作为输入。它们之间的区别在于“带有预训练目标”的组可以受益于预训练的知识。

不同的下游任务涉及不同类型的标签。例如,稳定性基准是一个回归任务,输入蛋白质X被映射到连续标签Y,以预测蛋白质的稳定性。图3b显示,在这个任务上,带有预训练的模型实现了0.812的Spearman's R值,优于没有预训练的模型(R=0.742),表明预训练在这个任务上带来了很大的好处。与其他方法相比,如图3c、d所示,模型在没有预训练目标的实验中在所有任务上都取得了最先进的性能。

来自消融实验的结果表明(图3e),来自ESM-MSA-1b的初始序列嵌入对于这些后续任务非常重要,尤其是对于远源同源性。与其他研究一致,多序列比对和掩码语言建模对于蛋白质结构相关任务,如二级结构和远源同源性,是最有优势的。相比之下,作者提出的多模态融合和精细预训练目标所获得的信息对于与生物物理相关的任务,如稳定性和荧光,更为有益。消融组和完整模型之间结果的差距(图3d)共同意味着只有将所有模块结合在一起才能达到最优状态的性能。

图 4

模型在几个蛋白质相互作用基准测试上进行了评估,包括SHS27k、SHS148k、STRING和SKEMPI。其中,STRING、SHS27k和SHS148k是多标签分类基准测试,而SKEMPI用于回归。有关这些数据集的更多详细信息可以在实验部分找到。作者选择了四种方法进行比较,包括PIPR、GNN-PPI、ProtBert和OntoProtein,并在SHS27k、SHS148k和STRING上对模型进行了评估。作者的多模态模型在所有这些基准测试上都优于其他方法。对于这些PPI基准测试,完整模型接收来自所有三个模态(序列、结构和GO)的输入,并进行了消融研究,以评估每种模态的效果。有五个实验组代表了不同的模态组合:1)随机初始化,2)仅序列,3)序列+结构,4)结构+GO和5)序列+GO。正如所证明的,组3至组5的表现优于组2,表明多种模态的结合对所有这些PPI数据集都有优势。在这些结果中,组3和组5,即序列加上另一种模态,取得了相对较好的结果,证实了序列信息的重要性。

结论

近年来基于人工智能的计算方法在学习蛋白质表示方面数量不断增加,这对于下游的生物学应用至关重要。大多数现有的方法通常只使用单一的数据格式,比如蛋白质序列。然而,蛋白质知识可以从多种类型的生物实验中积累得到。在本研究中,作者提出了一种多模态蛋白质表示框架,用于整合蛋白质序列、结构和功能信息的领域知识。通过精心设计预训练过程,作者创建一个具有广泛适用性的蛋白质表示学习工具。

参考资料

Hu, F., Hu, Y., Zhang, W., Huang, H., Pan, Y., & Yin, P. (2023). A Multimodal Protein Representation Framework for Quantifying Transferability Across Biochemical Downstream Tasks. Advanced Science, 2301223.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档