前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Chem Sci|化学基础模型的迁移学习

Chem Sci|化学基础模型的迁移学习

作者头像
智药邦
发布2024-03-05 17:52:43
710
发布2024-03-05 17:52:43
举报
文章被收录于专栏:智药邦智药邦

2023年11月24日,英国剑桥大学Emma King-Smith在Chemical Science上发表文章Transfer learning for a foundational chemistry model。作者提出了一个基于图神经网络的迁移学习框架,能够在小规模数据集中进行准确的化学相关预测。

首先,使用约100万个实验有机晶体结构的数据集训练化学“基础模型”。然后将特定于任务的模块堆叠在此基础模型之上并进行调优。这种方法在分子毒性预测、化学反应产量预测和分子气味预测等多种任务上实现了超越现有方法的性能,成功将迁移学习应用于多个化学领域任务的预测。特别是在气味预测任务中,本文提出的模型区分对映异构体对的气味准确率远高于现有方法,表示本文提出的模型能够有效建模手性分子。

背景

随着硬件的改进和新的机器学习模型的发展,数据驱动的化学引起了人们的极大兴趣。然而,为数据驱动的化学获得足够大而准确的化学结果数据集仍然是一个挑战。研究者们已经做出了巨大的努力,使可用的化学数据能在网络上开源,并开发更简单的机器学习应用程序,来查询和管理这些数据,然而,收集整理大规模的化学数据往往是十分费时费力的。

为解决这一问题,迁移学习已经在某些应用中得到采用,通过现有的大规模数据集预训练模型,然后迁移到小规模的待预测任务中微调。然而,化学领域中的迁移学习只是在个案基础上得到了应用,也就是一个预训练任务只能对应一个特定的待预测任务,而将一个预训练任务得到的模型迁移到多个待预测任务上的研究还十分缺乏,这限制了迁移学习在多任务预测的化学任务中的应用前景。

方法

如图1所示,作者提出了可用于迁移学习的化学基础模型,利用由此模型产生的潜在空间的分子特征,代替传统的QSAR中的分子指纹,来获得分子表示。从这个模型可以进行进一步的训练,以模块化的方式预测任何选择的化学属性,迁移所获得的知识。基础模型的目标是确保在分子表示中存在足够的相关化学信息。这项工作提出的基础模型经过训练,可以准确预测分子键的长度和角度。来自剑桥晶体学数据中心(CCDC)的大约100万个经过实验验证的有机晶体结构被用于训练这个基础模型。

图1 化学基础模型的迁移学习结构图

能够预测准确晶体结构信息的机器学习模型将包含一个潜在空间,并且可用于预测许多其他化学结果。CCDC的大小和范围将允许深度神经网络方法,能够推断原子或基团间细微的相互作用。重要的是,由于只有神经网络的最终输出块会进行训练,这将产生一个模块化的、灵活的框架,即使在有限的训练数据上也能够进行可靠的预测。该方法在三个化学相关的预测任务上体现了模块化和准确性的优越性能。

毒性预测:回归预测,将分子的LD50的对数值作为预测指标。

产率预测:回归预测,将交叉偶联反应的产率作为预测指标。

气味预测:多标签分类预测,一种分子可能同时具有多种气味。

这些任务在药物发现、化学合成和香水生产方面具有实用性,并且具有可用于建模和简单基准测试的开源数据集。此外,这些化学任务彼此之间几乎没有重叠:一个分子的高毒性对其交叉偶联的产率影响不大。因此,可以据此刻画基础模型的分子表示是否具有通用性。

由于CCDC数据集以晶体结构数据为中心,其重点是分子的几何形状,因此作者选择了基于图的模型。消息传递神经网络(MPNN)是图卷积神经网络的一种,在各种化学预测任务中取得了成功。简单地说,MPNN推导出分子内每个原子的局部化学环境,保持化学性质相同的原子的对称性。这个初始任务的训练集由CCDC中的含碳晶体结构组成。包含“稀有”原子(在数据集中表示次数少于100次的原子)的分子被排除在外。此外,还删除了键模式不明确的或不同构象有显著差异的分子。接着,训练一个大的MPNN来处理分子结构的二维数据,并预测分子内每个原子的原子坐标。原子坐标并不是固定的(一个分子在空间中旋转,尽管是相同的分子,但它的三维坐标会发生变化),因此该模型预测了原子与最近邻居的空间距离以及相应的键角形成。

值得注意的是,晶体结构数据已被用于预测固体形态和基于晶体结构的性质,但在迁移学习中对更多任务的应用有限。考虑到可以从CCDC数据集中提取潜在的基础化学知识,本文从CCDC数据中训练基础模型进行迁移学习的方法填补了数据驱动化学文献中未被探索的空白。有了训练好的基础模型,最终的输出层被丢弃,并被一个新的、未经训练的前馈神经网络所取代。这个新的网络规模较小,从而允许快速和方便地训练其他的任务。

结果

作者将迁移学习的化学基础模型与一些具有代表性的方法进行了比较,回归任务(毒性预测和产率预测)以MAE作为评估指标(越低越好),多标签分类任务(气味预测)以macro-F分数和加权F分数作为评估指标(越高越好),并在产率预测任务中进行了消融实验。由于本文将晶体结构预测作为迁移学习的预训练任务,因此在毒性预测和气味预测上,本文的模型被分别称为Crystal-Tox和Crystal-Olfaction。在两个数据集上的毒性预测任务对比如表1所示,气味预测任务如表2所示。本文提出的模型超越了现有方法。

值得注意的是,在气味预测任务中,Crystal-Olfaction的准确率,特别是区分对映异构体对的气味准确率远高于现有方法,表示本文提出的模型能够有效建模手性分子。

表1 与其他方法对比:毒性预测

表2 与其他方法对比:气味预测

作者设计了消融实验。在产率预测任务中,为了证明迁移学习的有效性,将模型与未进行迁移学习的图神经网络模型Graph-RXN进行对比。为了证明图神经网络的有效性,将模型与普通神经网络的迁移学习模型Yield-BERT进行对比。Suzuki反应指的是有机硼酸和有机卤代物在催化剂作用下发生交叉偶联反应。如表3所示,作者在包含未知的有机硼酸或未知的有机卤代物的Suzuki数据集上分别进行验证,所提出的Crystal-Yield模型超越了现有方法,表明迁移学习和基于图神经网络的基础模型都能增强模型的预测能力。

表3 消融实验:产率预测

作者还进行了案例分析。Crystal-Olfaction面临的挑战是,不仅要区分结构不同的分子,还要区分对映异构体,对映异构体由一个单热编码的手性标签来区分。众所周知,虽然它们的物理性质相同,但对映体可以被视为两种不同的气味。一个典型的例子是香芹酮,(R)-香芹酮通常被描述为薄荷香,(S)-香芹酮被描述为葛缕子香。因此,选择了具有相同的嗅觉特征或具有不同的嗅觉特征的对映体对进行案例分析,如图2所示。其中蓝色代表具有相同气味的对映异构体,Crystal-Olfaction对其预测的气味也相同,或者具有不同气味的对映异构体,Crystal-Olfaction对其预测的气味也不同,而红色则反之。Crystal-Olfaction能够预测到对映异构体分子的大部分气味,并且能区分对映异构体的气味区别。例如,对于(R)-异薄荷酮和(S)-异薄荷酮,Crystal-Olfaction都能够预测到其薄荷香味。对于(R)-薄荷酮和(S)-薄荷酮,Crystal-Olfaction能够区分其气味的不同,并预测到(S)-薄荷酮的樟脑味。对于化合物19,由于预测的奶酪味可视作脂肪味和发酵味的混合,因而也可视作预测正确。

图2 案例分析

总结

在本研究中,作者提出了可用于迁移学习的化学基础模型,将晶体结构预测作为基础模型的预训练任务,利用由此产生的潜在空间的分子特征,代替传统的QSAR中的分子指纹,来获得分子表示,并在分子毒性预测、化学反应产量预测和分子气味预测等多种任务上进行微调,实现了超越现有方法的性能。特别是在气味预测任务中,模型预测结果显著高于现有方法。

手性分子建模是化学信息学领域面临的重大挑战,作者提出的模型能够有效区分对映异构体的不同气味,从而在手性分子建模方面取得了突破。

以上成功的关键,是利用晶体结构预测任务来生成一个基础模型,该模型具有足够的化学知识,可以应用于一系列化学领域,例如结构活性关系探索(SAR)和药物设计。

参考文献

[1] King-Smith. Transfer learning for a foundational chemistry model. Chem Sci. 2023

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-02-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档