首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Nature子刊|基于图神经网络的分子表征对比学习

分子机器学习(ML)在分子性质预测和药物发现方面具有重要的应用前景,然而,获取标记分子数据既昂贵又耗时。由于标注数据有限,机器学习监督学习模型推广到巨大的化学空间极具挑战性。本文提出了一种利用大量未标记数据(约1000万个独特分子)的自监督学习框架MolCLR(通过图神经网络进行表征的分子对比学习)来解决这一难题。

01

在MolCLR预训练中,研究者构建了分子图并开发图神经网络(GNN)编码器来学习可微表示。

Overview of MolClr.

提出了三种分子图增强方法,即原子掩蔽、键删除和子图删除。所提的分子图增强方法保证了增强时同一分子的一致性最大化以及不同分子一致性的最小化。

investigation of molecule graph augmentations on classification benchmarks.

实验表明,本文提出的对比学习框架显著提高了GNN编码器在各种分子特性基准上的性能,包括分类和回归任务。得益于在大型未标记数据库上的预训练,MolCLR甚至在几个分子基准上通过微调将简单GNN模型提升到最先进水平(SOTA)。

test performance of different models on six regression benchmarks

02

此外,进一步的研究表明,MolCLR学习将分子embed到表征中,以区分化学上合理的分子相似性。

Visualization of molecular representations learned by MolClr via t-SNe.

本文研究了分子表征的自监督学习。具体来说,研究者提出了通过GNN和三种分子图增强策略:原子掩蔽、键删除和子图删除来进行表征的分子对比学习。通过对比增强中的正对和负对,MolCLR学习了一般GNN主干的信息表示。实验表明,MolCLR预训练的GNN模型在各种分子基准上取得了很大的改进,与监督学习方式训练的模型相比,具有更好的泛化性。通过MolCLR学习的分子表示,证明了对有限数据的分子任务可迁移性以及在大型化学空间上的泛化能力。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20220726A016C700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券