前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >J. Med. Chem. | 利用通用结构模式和特定领域知识增强分子性质预测

J. Med. Chem. | 利用通用结构模式和特定领域知识增强分子性质预测

作者头像
DrugAI
发布2024-05-22 14:36:43
710
发布2024-05-22 14:36:43
举报
文章被收录于专栏:DrugAIDrugAI

本文介绍一项由中南大学湘雅药学院曹东升教授团队,联合湖南大学曾湘祥教授团队,在Journal of Medicinal Chemistry上发表的研究工作“Enhancing Molecular Property Prediction through Task-Oriented Transfer Learning: Integrating Universal Structural Insights and Domain-Specific Knowledge”。作者提出一种基于BERT的任务导向多级学习(Task-Oriented Multilevel Learning based on BERT,TOML-BERT)模型,在预训练阶段同时提取分子的结构模式和领域知识,显著提升了多种分子性质的预测精度。此外,TOML-BERT在实验数据稀缺的情形下,仍具有出色的预测表现。这主要归因于该模型将基于掩蔽原子的节点级预训练和基于伪标签的图级预训练相结合,促使模型提前学习到上下文感知的原子表征和任务相关的分子表征。本研究在设计预训练策略时,主要关注目标任务。这种量身定制的方法为预测分子性质提供了一种适应性更强的解决方案。

课题背景

准确预测分子性质在药物发现中至关重要。然而,实验数据的稀缺为 QSPR 建模带来挑战。预训练和微调方法常用于缓解实验数据不足的问题。基于自监督学习(SSL)的预训练策略广受欢迎,它从分子结构本身入手,以揭示结构的内在模式。然而,SSL方法忽视了领域知识的学习,与目标任务的相关性有限,可能导致预测性能的微弱改善,甚至带来负迁移风险。使用伪标签数据进行监督预训练可以有效地迁移领域特定的知识。伪标签是半监督学习中的重要概念之一,即使用在标记数据上训练的模型为无标签分子分配的预测标签。然而,基于伪标签的预训练方法目前仍缺乏系统的研究。例如,伪标签的选择至关重要,会极大地影响预训练的效果。鉴于自监督预训练和基于伪标签的监督预训练侧重于提取分子内不同层面的信息,作者尝试将两种策略结合起来,探索其潜在优势。

TOML-BERT构建流程

为了同时提取分子的结构信息和领域知识,TOML-BERT 模型历经两步预训练,然后针对不同的下游任务进行微调(见图1)。第一步预训练是节点级 SSL,训练模型以捕获与分子结构相关的上下文信息。这一步的核心是掩蔽原子预测任务,即将分子中约 15% 的原子掩蔽起来,然后利用其余原子预测被掩蔽原子的类型。这项任务能够提高原子表征的清晰度,可能有助于建立稳健的分子表征。第二步预训练为图级监督学习(SL),旨在从大量伪标签数据中获取任务相关的知识。以分子图作为输入,预测特定任务的伪标签。图级预训练能够加强分子表征与目标性质之间的联系。完成双级预训练后,模型将在实验数据集上进行微调。微调确保模型拟合高保真度数据的特性,使得模型与目标任务相匹配。

图1 TOML-BERT的整体流程。(a)掩蔽原子预测任务;(b)伪标签预测任务;(c)微调任务

结果与讨论

双级预训练有效性评估

通过消融实验验证双级预训练的优势。如图2所示,双级预训练在下游任务中始终显示以下趋势:(1)正迁移:采用双级预训练的模型明显优于未经预训练的模型,性能差距在 2.2~28.8% 范围内。(2)优越性:与单级预训练方法相比,双级预训练表现出优异或相当的性能。例如,在预测 MDCK 时,采用双级预训练的模型性能分别比采用图级和节点级预训练的模型高出2.3% 和 18.7%。结果表明,双级预训练策略的两个步骤相互促进,在多种分子性质预测任务中表现出广泛的有效性和优越性。

进一步研究两种单级预训练方法,以确定它们各自的贡献。与不进行预训练的情况相比,节点级和图级预训练都没有发生负迁移,表明两者都能提高模型的预测准确性。采用图级预训练的模型表现优于采用节点级预训练的模型,性能提高1.4%~25.4%。图级预训练是针对特定下游任务定制的,而节点级预训练是在原子水平上进行操作,只能获取泛化的知识。因此,与泛化的节点级预训练相比,任务特定的图级预训练通常能为分子性质预测带来更多益处。

图2 消融实验中模型性能的对比

模型性能评估

为了评估TOML-BERT在预测分子性质方面的能力,作者将其与六种优秀的模型进行了比较(表1)。在所有九个基准数据集上,TOML-BERT 的平均性能为 92.7%,明显优于其他模型,包括 ECFP4-XGBoost(75.5%)、GAT(78.8%)、GCN(79.5%)、Attentive FP(79.5%)、CDDD(81.1%)和 MTL-BERT(86.7%)。

表1 TOML-BERT 与其他优秀模型的性能对比

伪标签可靠性的影响

作者研究了不同的伪标签对预训练效果的影响。首先,通过计算伪标签与实验数据集中的实验标签的拟合程度,评估每个伪标签的可靠性。如图3-a和图3-b所示,来自 ADMETlab 2.0 的伪标签(前缀为“a”)可靠性排名靠前,而来自 Schrödinger 和 MOE 的伪标签(前缀分别为“x”和“m”)排名靠后。来自 ChemAxon 的两个伪标签(前缀为“cx”)位于中间。对于来自FP-ADMET 的伪标签(前缀为“fp”),fp_logD、fp_logS 和 fp_f50% 排名靠前,其他伪标签排名靠后。

接下来,使用不同的伪标签进行预训练。模型性能变化如图3-c所示,可以观察到伪标签的可靠性与预训练收益之间存在高度一致的趋势。一般来说,伪标签的可靠性越高,图级和双级预训练的收益就越大。例如,三个伪标签的可靠性排序如下:a_mdck > x_mdck > fp_mdck。在双级(图级)预训练下,使用这些伪标签进行预训练的模型 R2 值分别为 0.847(0.824)、0.695(0.678)和 0.642(0.631)。这些发现凸显作者提出的伪标签可靠性评估方法的有效性。通过这种评估,研究人员可以在进行大规模预训练之前确定选择的伪标签是否适合目标预测任务,从而避免不必要的时间和资源浪费。

图3 伪标签可靠性对预训练效果的影响。(a)回归和(b)分类任务的伪标签可靠性。(c)使用不同的伪标签进行图级或双级预训练引起的模型性能变化

实验数据量的影响

为了评估 TOML-BERT 在数据稀缺情况下的性能,作者在保持验证集和测试集不变的情况下,使用原始训练集的子集来训练模型。如图4-a所示,在实验数据较少的情况下,模型的性能会因为采用的预训练策略不同而有较大差异。在使用高可靠性的伪标签进行预训练后,仅需一百个训练数据就能使模型性能达到峰值,并且随着数据量的增加,性能几乎保持不变。这一点在分别使用 a_logP 和 a_bbbp 作为伪标签,用于预测 LogP 和 BBBP 时表现得尤为明显。研究结果表明,有效的预训练策略在缓解数据稀缺问题方面具有巨大潜力。

在图4-b中,以从头训练的模型为基线,展示不同预训练策略的收益。一般来说,在训练数据有限的情况下,预训练的优势更加明显。但是,在数据量较少的情况下存在两个例外:(1)用于LogP 和 BBBP 预测任务的节点级预训练;(2)在x_bbbp 数据集上进行的用于预测 BBBP的图级和双级预训练。原因可能是,在使用较少的实验数据进行微调时,对预训练策略与目标任务之间的相关性要求更加严格。相比之下,节点级预训练迁移的知识更加泛化,而伪标签 x_bbbp 的可靠性较低。使用其他伪标签进行的图级和双级预训练成功地克服了在数据量较少的情况下对预测性能提升乏力的问题,强调了其强大的任务导向性。

图4 微调时使用的实验数据量对模型性能的影响。(a)不同训练数据量下的预测性能变化。(b)通过实施不同的预训练策略提高的预测性能,包括节点级、图级和双级预训练

解释预训练收益

由于双级预训练由节点级 SSL 和图级 SL组成,作者尝试从原子和分子表征中揭示其有效性的原因。首先,作者分析了TOML-BERT 构建过程中原子表征的演变。如图5-a所示,节点级预训练模型能够有效区分不同的原子符号类型,并且这一特征基本上在双级预训练模型和 TOML-BERT 模型中得到保留。然而,图级预训练模型产生的原子表征很难根据原子符号进行分类。此外,为了检查模型对邻域信息的提取情况,作者根据一阶邻域的不同对原子进一步分类。例如,O原子可再分为 O=、-OH 或 -O-。如图5-b 所示,节点级和双级预训练模型以及 TOML-BERT 的原子表征可以根据其一阶邻域类别进行聚类,表明这些模型能够捕获子结构特征。相反,图级预训练模型的原子表征在一阶邻域类别上没有明显区别。节点级预训练的有效性可归因于其产生可区分的原子表征的能力。在 TOML-BERT 中,分子表征是由一个与所有原子相连的超级节点输出的。因此,这些清晰可辨的原子表征可能有助于更好地表示分子。

为了研究预训练阶段获得的知识与目标任务的相关性,作者分析了TOML-BERT构建过程中分子表征的演变。如图5-c和图5-d所示,节点级预训练模型产生的分子表征针对特定性质几乎是不可分的。相比之下,图级和双级预训练模型产生的分子表征则根据其分子性质表现出一定的可区分性。TOML-BERT 在区分具有不同性质的分子方面表现出色,显示出清晰的分界。这些观察结果表明,图级预训练成功地从伪标签数据中学习到与目标任务相关的信息。总之,节点级预训练产生了包含邻域结构信息的可区分原子表征。图级预训练则产生了富含目标性质相关知识的分子表征。两者的信息提取能力相辅相成,使双级预训练成为预测分子性质的强大助力。

图5 由节点级、图级和双级预训练模型以及 TOML-BERT 学习到的原子和分子表征的 t-SNE 图。按原子的(a)元素符号和(b)一阶邻域类别着色的原子表征可视化图。以(c)logD7.4和(d)BBBP实验值着色的分子表征可视化图

特征提取能力评估

为了探究TOML-BERT是否能够捕获更高阶的邻域信息,作者进一步根据原子贡献类别着色模型产生的原子表征。原子贡献类别是基于原子的化学环境进行分类的,考虑了近邻、次近邻和芳香性等因素。例如,氧原子被分为12个类别,包括芳香氧原子、羟基、氧化物、芳香羰基和酸等。这些类别的分类依赖于专业的化学知识,体现了人类专家的智慧。如图6所示,原子表征基本上能够根据原子贡献类别聚类,这表明 TOML-BERT 成功捕获到高阶子结构特征。

此外,TOML-BERT 可以识别比原子贡献分类系统更精细的化学环境差异。例如,原子13C和22C的类别都是 C18(芳香族;SMARTS 为“[cH]”),但它们的原子表征却相差甚远。在局部放大图中,即使属于同一类别,化学环境较为相似的原子倾向于彼此聚集。具体来说,所有被标记的 S 原子都是磺酰基的一部分,属于S2类别(离子硫;SMARTS 为“[S-*]”或“[S+*]”),但那些与苯环和N原子相连的S原子的表征更加接近。

图6 按原子贡献类别着色的原子表征的 t-SNE 图。在 t-SNE 图中,标注归属于 M1 和 M2 分子的所有原子的位置。在局部放大图中,用相同的颜色表示原子及其对应的位置

总结

本研究提出TOML-BERT,通过双级预训练提取任务导向的知识,旨在缓解分子性质预测中的数据稀缺挑战。系统的消融实验表明,双级预训练策略取得显著的正迁移效果,优于单级预训练方法的表现。TOML-BERT 的性能优于其他先进模型。对于 TOML-BERT 中的图级预训练,伪标签数据的选择是影响迁移学习效果的关键因素之一。作者使用一种简洁的方法评估伪标签的可靠性,发现这种可靠性与预训练收益呈正相关关系。此外,利用缩减的数据集进行微调的实验凸显出TOML-BERT在处理具有稀疏标记数据的任务方面的强大优势。对双级预训练的可解释性分析表明,节点级和图级预训练发挥着重要的互补作用,有助于建立任务相关的分子表征。此外,在对特征提取能力的分析中,发现 TOML-BERT 能够捕捉到比化学专家精心设计的原子贡献分类系统更精细的化学环境差异。总之,TOML-BERT 证明了结合多种预训练任务提取任务导向知识的潜力,从而推动了药物发现中的分子性质预测。

参考资料

Duan, Y.; Yang, X.; Zeng, X.; Wang, W.; Deng, Y.; Cao, D., Enhancing Molecular Property Prediction through Task-Oriented Transfer Learning: Integrating Universal Structural Insights and Domain-Specific Knowledge. Journal of Medicinal Chemistry 2024.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档