分子机器学习(ML)在分子性质预测和药物发现方面具有重要的应用前景,然而,获取标记分子数据既昂贵又耗时。由于标注数据有限,机器学习监督学习模型推广到巨大的化学空间极具挑战性。本文提出了一种利用大量未标记数据(约1000万个独特分子)的自监督学习框架MolCLR(通过图神经网络进行表征的分子对比学习)来解决这一难题。
01
在MolCLR预训练中,研究者构建了分子图并开发图神经网络(GNN)编码器来学习可微表示。
Overview of MolClr.
提出了三种分子图增强方法,即原子掩蔽、键删除和子图删除。所提的分子图增强方法保证了增强时同一分子的一致性最大化以及不同分子一致性的最小化。
investigation of molecule graph augmentations on classification benchmarks.
实验表明,本文提出的对比学习框架显著提高了GNN编码器在各种分子特性基准上的性能,包括分类和回归任务。得益于在大型未标记数据库上的预训练,MolCLR甚至在几个分子基准上通过微调将简单GNN模型提升到最先进水平(SOTA)。
test performance of different models on six regression benchmarks
02
此外,进一步的研究表明,MolCLR学习将分子embed到表征中,以区分化学上合理的分子相似性。
Visualization of molecular representations learned by MolClr via t-SNe.
本文研究了分子表征的自监督学习。具体来说,研究者提出了通过GNN和三种分子图增强策略:原子掩蔽、键删除和子图删除来进行表征的分子对比学习。通过对比增强中的正对和负对,MolCLR学习了一般GNN主干的信息表示。实验表明,MolCLR预训练的GNN模型在各种分子基准上取得了很大的改进,与监督学习方式训练的模型相比,具有更好的泛化性。通过MolCLR学习的分子表示,证明了对有限数据的分子任务可迁移性以及在大型化学空间上的泛化能力。
领取专属 10元无门槛券
私享最新 技术干货