分子性质预测(Molecule Property Prediction)是研究者在进行新药发现研究时经常会遇到的问题。由于新药发现研究中已知药理性质的分子(有标签样本)少,小样本学习(Few-Shot Learning)的方法在分子性质预测问题中有不错的效果。在已有的小样本的分子性质预测研究中,很多工作会选择直接使用小样本学习的经典方法,但是忽视了分子性质预测这个问题的特性,比如分子之间的关系以及同种分子在不同性质上的表现。在这篇工作中,我们提出了新的分子性质预测模型PAR,在获取分子表征的过程中加入self-attention层获取分子性质信息,创新地加入了分子关系学习和参数部分更新的策略,解决了已有工作存在的问题,在多个分子性质预测的数据集中取得了很好的效果。
原文链接
https://arxiv.org/abs/2107.07994
代码实现:
https://github.com/tata1661/PAR-NeurIPS21
论文PPT:
https://github.com/tata1661/PAR-NeurIPS21/blob/main/DRUG-NeurIPS.pdf
背景介绍
目前,分子性质预测(Molecule Property Prediction)在新药发现的领域有着非常重要的应用。在目前药物研发的过程中,研发流程长、开销大,需要参与筛选的分子数量非常多。[1]又由于能够进入实测环节的药物数量少,在研究过程中已知药理特性的分子(有标签样本)也很少。使用机器学习的方法可以辅助进行分子性质预测,帮助解决药物研发过程中存在的问题。
小样本学习(Few-Shot Learning)是机器学习的一种,“小样本”体现在学习过程中已知的有标签样本数量少。小样本学习的应用场景主要包括:处理罕见场景(新药发现),降低数据的收集、标注、处理和计算开销(图像、文本分类方面)。[2]经典的小样本学习方法包括SiameseNet[3]、ProtoNet[4]、MAML[5]等。由于目前分子性质预测问题中就存在有标签样本少的问题,小样本学习在分子性质预测问题中有广泛的应用。
已有方法及问题
已有的分子性质预测方法大都遵循一个固定的框架:把分子看成图,原子为图中的点,化学键为边,将分子送入图神经网络(GNN)之后即可得到分子表征(图表征);之后再通过小样本的学习方法得到分子性质预测的结果。本文主要介绍两种已有的方法。
此方法全称为“Iterative Refinement LSTM”[6],主要采用了小样本图像分类任务中的著名工作Matching Network[7]的思路,利用图像(分子)表征之间的相似度关系来判断图片(分子)之间的关系,从而预测图像(分子)的标签。在采用Matching Network的基础之上,该工作提出了IterRefLSTM,改进了Matching Network工作中计算表征函数过程中存在的一些不足,取得了不错的效果。
Meta-MGNN[8]方法结合了小样本学习中的经典算法MAML[5]以及预训练图神经网络的工作preGNN[9],并采用了preGNN中提供的分子表征预训练模型进行训练,从而解决分子性质预测的问题。在设计模型的过程中,该方法也借鉴了preGNN中的一些想法,通过设计一些任务(判断原子类型或原子之间的化学键是否存在),来挖掘分子结构中存在的无标签信息。
虽然上述两种方法都存在其创新之处,但是它们存在共同的缺点,它们都在训练中忽视了分子之间的关系,在获取分子表征的时候,也没有考虑需要预测的性质信息。
PAR方法介绍
已有方法存在的问题在上图的例子中可以体现出来。虽然同样是这四个分子,但是我们需要预测的性质不相同时,这四个分子之间的关系就会截然不同。已有方法在提取分子表征的时候并不会考虑当前需要预测的是什么性质,因此在预测这四个分子的不同性质时会给出同样的结果,从而导致预测出现错误。
针对已有方法中普遍存在的问题,我们提出了PAR[10]方法。PAR的模型结构主要分为对分子性质敏感的分子表征学习(Property-Aware Molecular Embedding)和关系图学习(Relation Graph Learning)两个部分。在分子表征学习的部分,我们将分子送入图神经网络(GNN)得到分子表征之后,分别取起作用(active)和不起作用(inactive)的分子表征的平均作为类代表;在此之后,每一个得到的分子表征和两个类代表做self-attention得到新的分子表征,这样新的分子表征就得到了需要预测的性质的信息。在关系图学习的部分,我们采用了动态图学习的策略,旨在利用动态图学习的GNN网络更好地学习分子间关系以及分子表征。
在训练的过程中,我们采用了MAML进行小样本学习,也将模型中的参数分成泛用的参数以及特定性质相关的参数两类,在训练过程中采用部分更新的策略,提升模型的训练效果。在损失函数的选取上,除了采用预测分类的损失之外,我们还加入了分子之间关系判断的正则化项。
上表将我们提出的PAR方法与前面两种已有的方法进行了对比,PAR采用MAML的小样本学习方法,针对已有方法的缺陷提出了对分子性质敏感(Property Aware)的学习策略、分子间关系(Molecule relation)学习以及参数部分更新(Selective Update)的训练策略。此外PAR同时支持与训练和非预训练模型,而前面两种方法只支持其中一种。
实验结果
从实验结果可以看出,不论是在预训练模型还是无预训练模型中,PAR模型都可以取得非常不错的效果,这得益于我们针对已有方法的改进以及一些创新的设计。
为了验证PAR是否可以给出对分子性质敏感(Property Aware)的分子表征,我们选取了10个分子、3种不同的性质进行验证。从可视化结果可以看出,PAR的模型可以随着训练的进行将不同性质的分子分开,并不会因为同样是这10个分子给出相同的结果。这也说明PAR的设计是成功的。
未来工作
在未来的工作中,PAR在以下几个方面可以做扩展:对于分子性质预测,我们可以考虑做不同分子性质数据集之间的迁移学习,甚至其他跨度更广的迁移学习;目前我们做的都是小样本的分子性质预测,将来我们也可以考虑做小样本的分析性质回归问题;考虑其他经典的小样本学习方法在分子性质预测中的应用,比如RelationNet[11];考虑设计更适合表征分子的GNN,提取更多更全的分子信息等。
参考资料