今天给大家介绍的是MIT的在读博士金汶功等人发表在ICML的一篇关于分子图生成的论文,作者利用每个分子特性所对应的子结构(官能团或者更大的结构),构建属于这个属性的子结构库,通过学习子结构来抵消由于多个属性约束所带来的复杂性旨在使分子同时拥有多种特性,最后利用图生成模型将其扩展到整个分子上,实验结果表明该模型具有目前最优的性能。
1
背景
药物发现是一个漫长、成本高昂以及失败率高的过程,而深度生成模型的出现以数据驱动的方式探索较大的化学空间很好地加快了药物发现的过程。这些模型通常是对分子图进行编码来学习一个连续的潜空间,由目标特性引导通过对学习的潜空间解码生成新分子,主要包括基于变分自编码器的,基于生成对抗网络的以及基于流的模型,并且根据数据输入形式不同,可细分为基于Sequence的和基于Graph的模型。由于Graph表示形式可以包含分子的结构特征,例如把原子看作节点,原子的类型即为node label, 键当成边,键的类型(单键,双键,三键)即为edge label,所以很多模型都采用Graph的表示形式。
目前提出的分子图生成模型大多生成的分子都只具备某一单一特性,而很少有分子同时具备多种性质,满足从效能,安全性到所需代谢谱的多种约束。对于现有的计算模型,同时优化这些约束时具有挑战性的,其主要困难在于在现实世界中缺乏训练符合所有约束条件的分子实例。对于之前提出的基于分子图模型,例如本文作者在2018年发表在ICML的JT-VAE,基于强化学习的最佳模型REINVENT等模型在面对四个属性约束时,性能都有le 很大程度的下降。作者沿用JT-VAE使用分子子结构的思想,不同于之前只是将全部子结构作为一个库进行学习,RationaleRL针对某一特定性质对应的子结构(文中称为rationale)构建库,从特定性质子结构出发用分子图生成模型对图进行补全,最终得到具有多性质的分子。
2
方法
RationaleRL整体结构主要分为以下三部分:
(1)Rationale Extraction: 由于现实生活并不存在rational,所以需要自己提取构建,与此同时,由于最终的学习目标是具有多属性的分子,但现实中缺乏这样的实例,所以作者首先对单个性质的rationale进行提取,之后通过合并多个单性质的rationale得到多属性的rationale vocabulary。
提取rationale标准:
具体的提取方法采用的是蒙特卡洛树搜索方式,从分子图出发,对与性质无关的周边键进行删除(一次只删一个)并且目标是属性得分最大。下图为单个属性的rationale提取过程:
(2)Graph Completion:主体架构采用VAE模型,分为encoder和decoder两个部分,主要思想是encoder部分学习原子在整个分子图是如何表示的,目的是为了decoder提供从局部分子图(多属性rationale)出发重建整个分子图的节点和边的信息。这里作者为了提升生成速度,沿用GraphRNN的思想,采用BFS(广度优先搜索)进行节点的生成,通过维护队列来实现。
(3)Pretraining & Fine-tune: 生成模型的最终目标是生成逼真且正向的分子,但是VAE的目标函数无法完成这一点,所以作者分为两个阶段来训练生成模型:
3
结果
(1)分子评估
作者在四个属性GNK3β,JNK3(阿兹海默疾病的靶点),类药性和分子可及性上对分子进行属性得分评估。下图为与之前模型在以成功率,新颖性,多样性为评估标准的结果:
从上表可以看出,RationaleRL在多属性评估上性能最佳。
(2)可视化
下图为显示了满足所有四个约束条件(GSK3β+ JNK3 + QED + SA)的生成分子的示例。
(3)属性预测可用性
由于生成的成功率基于属性预测器,因此生成的分子可能会受属性预测器的缺陷的影响。特别是,当生成的化合物的分布与用于训练属性预测器的分子的分布非常不同时,预测的属性可能会不可靠。该模型缓解了这个问题,因为生成的化合物是基于从用于训练特性预测因子的真实正向化合物中提取的rationale构建的。因此,本文生成的化合物比从头生成的化合物更接近真实的化合物。下图为该模型和REINVENT模型生成的分子和训练集分子之间的FCD距离。
4
总结
作者提出了基于rationale的分子设计生成模型,可分两个阶段生成分子:1)识别其存在表明每种特性的rationale;2)使用图生成模型将子结构图扩展为分子,并将其微调至所需的特性组合并展示了在各种任务中比以前的强化学习方法有很大的改进。
代码
https://github.com/wengong-jin/multiobj-rationale
参考资料
原文:https://arxiv.org/abs/2002.03244