前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Advanced Science | 多模态蛋白表征方法及其迁移性量化

Advanced Science | 多模态蛋白表征方法及其迁移性量化

作者头像
DrugAI
发布2023-09-19 14:04:35
2450
发布2023-09-19 14:04:35
举报
文章被收录于专栏:DrugAI

5月30日,中国科学院深圳先进技术研究院数字所殷鹏团队在Advanced Science在线发表了最新研究成果,题为“A Multimodal Protein Representation Framework for Quantifying Transferability Across Biochemical Downstream Tasks”。该工作提出了一种多模态蛋白质表征方法,通过融合多种蛋白质模态,包括序列、结构和基因本体(GO)信息来实现对蛋白的高效表征。同时,提出了一种基于最优传输的特征空间表示度量,用于量化从预训练的多模态表征到下游任务的动态迁移性。这种度量可以有效地捕捉任务间的分布差异,并预测任务间的适应性。这项研究的成果有助于更好地理解蛋白质的性质和功能,为计算生物学领域的研究提供了新的工具和方法。助理研究员胡帆博士为论文的第一作者,数字所硕士研究生胡奕绅、张维鸿为共同一作。潘毅教授为论文的共同作者,殷鹏副研究员为论文的通讯作者。

蛋白质是生命的物质基础,是构成细胞的最基本的有机物,担当着生命活动承担者的角色。针对蛋白质的表征学习,简单来说,就是通过计算机算法将蛋白质的复杂信息转化为一种可以被计算机理解和处理的形式,如向量、矩阵等。其意义在于使我们能够利用计算机的强大计算能力来研究和理解蛋白质的复杂性,以及预测蛋白质的行为。大多数现有的蛋白质表示方法都来自于为自然语言文本设计的自监督语言模型。然而,蛋白质的结构和功能是复杂的,且在不同的生物环境中可能会发生变化。因此,如何将蛋白质的序列、结构和功能进行有效融合,以掌握更丰富的多模态表征信息,进而提升下游任务的性能,如蛋白质功能和蛋白-蛋白结合预测等,是一个重要的挑战。另一方面,现有研究表明,下游任务通常可以从预训练模型的信息迁移中受益。那么,是否能量化这种迁移性,从而确定模型的预训练与下游任务间的定量关系以及任务间特征空间的分布与其相互间迁移性的定量关系?解决这些问题对于蛋白表征的训练及应用具有重要意义。

图1. 多模态蛋白表征框架及数据

这项工作使用的数据如图1右上所示,包含蛋白序列、结构、功能注释数据以及蛋白细粒度如motif、domain、region等信息。提出的多模态融合表征框架包括四个主要组成部分(图1左):1)蛋白质序列、结构和GO的特征提取。2)通过自注意力机制对蛋白质序列和结构进行token-level的局部对齐。然后将序列-结构特征与GO特征进行全局对齐。3)使用五个特定的预训练目标对多模态模型进行预训练。4)将得到的蛋白质表示应用于下游任务和跨任务学习过程量化。

该方法得到的蛋白多模态表征在多项蛋白相关的下游任务(如蛋白稳定性预测、蛋白-蛋白互作预测等)取得了优异表现。另一方面,这项工作提出了一种新的跨任务迁移性度量方法(OTFRM),用于量化从预训练表征到相关下游任务以及下游任务间相互的动态迁移性。研究者计算了这些下游任务之间的成对距离,并观察到了任务间特征空间分布和适应性之间的强相关性(图2)。该度量方法可用于评估跨任务学习过程,预测适应性,引导各种任务的微调,并指导蛋白质表征学习的神经网络和训练目标设计。

图2. 跨任务迁移性度量方法

该论文的主要结论包括如下几点:

(1)适当的数据类型选择和预处理。因为可用的序列语料库庞大,目前大多数蛋白质表示方法都基于序列数据。现阶段,由于Alphafold2的贡献,可使用蛋白质结构数据迅速增长。因此,多模态蛋白质模型将具有更广泛的适用性。研究表明,整合多种蛋白质模态可以在各种下游任务上获得更好的性能。然而,由于这些数据的复杂特性,如高维稀疏特征,结合不同的蛋白质相关数据是困难的。研究团队使用命名实体识别策略从domain/motif/region信息中提取知识。然而,对于其他类型的蛋白质数据,如翻译后修饰,将需要额外的技术。

(2)模型架构。在多模态机器学习中,不同模态的对齐和融合是关键。跨模态的信息异质性可能阻碍有效的融合。每种蛋白质模态都与一个捕获领域特定特征的私有子空间和一个捕获共享特征的共享子空间相关联。过早进行多模态融合可能会导致模态特定特征的丢失。因此,研究团队分别提取了每种蛋白质模态的特征,包括序列和结构数据的进化和空间信息。然后,根据不同模态的特性,它们在token或global级别进行对齐。这种技术可以比传统方法(如在后期阶段不进行对齐就连接模态嵌入)保留更多的模态特定特征。在假设存在领域特定和共享特征的情况下,可以尝试更多方法。例如,通过训练一个领域分类器来最小化领域共享特征和最大化领域特定特征,可能会得到更好的表示。

(3)合适的训练目标。在表示学习中,如何设计相关的训练目标,从而指导模型优化和特征提取是非常重要的。然而,在定义预训练目标时,现有的方法大都依赖于从自然语言处理(如掩码语言建模,MLM)获得的经验。研究团队引入了更多的蛋白质特定训练目标,以提取高级和细粒度的蛋白质领域特征。虽然他们的有效性已经得到确认,但仍有很大的改进空间。例如,目前还不清楚基于哪些目标获得的哪些特征对特定的生物任务贡献最大。为给定任务封装所需属性设计一系列训练目标的合理性仍然是一个挑战。

(4)未来的研究方向。通过量化可转移性来合理设计蛋白质表示学习。需要强调的是,蛋白质的不同生物属性会对各种下游任务的表示提出不同的要求,所以想要将所有下游任务需求的特征嵌入到一个表示中是无法实现的。如果面向所有下游任务仅使用单一的蛋白质表示是无法达到最优效果的。因此,应该定量地分析生物属性与隐含特征之间的关系,以及在预训练阶段应该包含哪些模态或训练任务,从而提取并迁移特定任务最适合的属性及特征。该研究团队提出了一种新的度量方法,用于量化预训练蛋白质表示对下游任务的动态可转移性。他们已经证明,这个度量可以用来评估跨任务学习过程,预测适应性,并指导各种任务的微调。

参考资料

Hu, Fan, Yishen Hu, Weihong Zhang, Huazhen Huang, Yi Pan, and Peng Yin. "A Multimodal Protein Representation Framework for Quantifying Transferability Across Biochemical Downstream Tasks." Advanced Science (2023): 2301223.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-03 00:01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档