编译 | 王勤玉
今天介绍的是卡内基梅隆大学化学工程系的Amir Barati Farimani 教授最新发表在 Nature Machine Intelligence上的文章 ”Molecular contrastive learning of representations via graph neural networks”. 该文提出一种自监督的图神经网络框架MolCLR,利用大量无监督的标签进行自监督学习,有效缓解了因为数据标记有限而阻碍将分子机器学习推广到巨大的化学空间的难题。同时,本文提出了三种全新的分子图的增强方法:原子屏蔽、键删除以及子图删除,所提的分子图增强方法保证了增强时同一分子的一致性最大化以及不同分子一致性的最小化。实验表明,MolCLR 大大改善了 GNN 在各种分子特性基准上的表现。
研究现状
分子表征是设计功能性和新型化合物的基础和必要条件,由于可能的稳定化合物数量巨大,开发一个信息丰富的表征模型来概括整个化学空间是一个巨大挑战。传统的分子表征,如扩展连接性指纹(ECFP)已经成为计算化学的标准工具。最近﹐随着机器学习方法的发展﹐数据驱动的分子表征学习及其应用越来越被重视(如化学性质预测、化学建模、和分子设计)。然而,由于以下三个主要的挑战﹐导致学习这样的表征很困难:
MolCLR框架概述
本文提出的MolCLR通过图神经网络对表征进行分子对比学习,以解决上述挑战。MolCLR是一个自监督的学习框架,它是在具有1千万个独特分子的大型无标记分子数据集上训练出来的。通过对比损失,MolCLR通过对比积极的分子图对和消极的分子图对来学习表示。引入了三种分子图的增强策略:原子屏蔽、键删除和子图删除。广泛使用的GNN模型、图卷积网络(GCN)和图同构网络(GIN),被开发为MolCLR中的GNN编码器,以从分子图中提取信息表示。然后在MoleculeNet的下游分子特性预测基准上对预训练的模型进行微调。与通过监督学习训练的GCN和GIN相比,本文所提的MolCLR明显提高了分类和回归任务的性能。受益于对大型数据库的预训练,MolCLR在多个分子基准测试中超过了其他自监督学习和预训练策略。此外,在一些任务上,MolCLR可以与监督学习的基准线相媲美,甚至超过了监督学习,其中包括复杂的分子图卷积操作或特定领域的特征化。MolCLR表示法和传统的FPs之间的进一步比较表明,MolCLR可以通过对大量未标记数据的预训练来学习区分分子的相似性。
图1. MolCLR概述图
分子图增强方法
原子屏蔽(Atom Masking)分子图中的原子以给定的比例被随机屏蔽。当一个原子被遮蔽时,它的原子特征被一个掩码标记 取代,该标记与图1(b)中红框所示的分子图中的任何原子特征相区别。通过屏蔽,模型被迫学习内在的化学信息(比如由某些共价连接的原子的可能类型)。
键删除(Bond Deletion)如图1(b)中的黄色方框所示, "键删除"以一定比例随机删除原子之间的化学键。与原子屏蔽方法中用掩码标记替代原始特征的原子掩码不同,键删除是一种更严格的增强,因为它从分子图中完全删除了边缘。原子之间化学键的形成和断裂决定了化学反应中分子的属性。键的删除模拟了化学键的断裂,促使模型学习一个分子在各种反应中的关联性。
子图删除(Subgraph Removal)子图删除可以被认为是原子屏蔽和键删除的结合。子图的去除从一个随机挑选的原点开始。去除过程通过屏蔽原原子的邻域,然后是邻域的邻域,直到被屏蔽的原子数量达到原子总数的一定比例。然后,被屏蔽的原子之间的化学键被删除,这样被屏蔽的原子和被删除的化学键就形成了原分子图的子图。如图1(b)中的蓝色方框所示,被移除的子图包括被遮蔽原子之间的所有化学键。通过匹配被移除的不同子结构的分子图,该模型学会了在剩余的子图中找到显著特征,这在很大程度上决定了分子的特性。
图2. 基于分类基准的分子图增强的研究。
总结
通过MolCLR学习的分子表征证明了在数据有限的情况下对分子任务的可转移性以及在大的化学空间中的概括能力。此外,自监督学习的表征可视化和解释也很有意义。这样的研究可以帮助研究人员更好地理解化合物并有利于药物的发现。
参考资料
Wang, Y., Wang, J., Cao, Z. et al. Molecular contrastive learning of representations via graph neural networks. Nat Mach Intell (2022).
https://doi.org/10.1038/s42256-022-00447-x