今天给大家介绍一篇佐治亚理工学院Tianfan Fu等人发表在AAAI 2021上的文章“MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization”。分子优化促进药物发现,其目标是产生新的有效分子,使药物特性最大化,同时保持与输入分子的相似性。现有的生成模型和强化学习方法在同时优化多种药物属性方面仍面临一定困难。为此,本文提出多约束分子采样框架—MIMOSA,使用输入分子作为初始采样框架,并从目标分布中采样分子。MIMOSA首先预先训练两个属性不可知图神经网络(GNN),分别用于分子拓扑和子结构类型预测,其中子结构可以是原子或单环。MIMOSA用GNN进行迭代预测,并且采用三种基本的子结构操作(添加、替换、删除)来生成新的分子和相关的权重。权重可以编码多个约束,包括相似性约束和药物属性约束,在此基础上选择有前途的分子进行下一次预测。MIMOSA能够灵活地对多种属性和相似性约束进行编码,且高效地生成满足各种属性约束的新分子,在成功率方面比最佳基线改进高达49.6%。
1
背景
分子生成和分子优化是目前针对设计理想性能的药物分子这一目标的重要机器学习任务,现有的工作可以归类为生成模型和强化学习(RL)这2种方法,但目前大多数模型只优化了单一的性质,而开发可行的候选药物需要优化多个属性。
分子优化生成模型
将输入的分子投影到潜在空间,然后在潜在空间中搜索新的和更好的分子。比如利用SMILES字符串作为分子表示来生成分子;用遗传算法(RA)探索分子生成;也有与分子图形表示的相关工作如Molgan、CGV AE、JTV AE等,尽管它们在生成有效分子方面近乎完美,但它们中的大多数都依赖配对数据作为训练数据。
分子优化强化学习
也是在分子生成器的基础上发展起来的。比如最近有利用深度强化学习来生成分子图并取得了完美的有效性。然而,这些方法都需要在特定的数据集上进行预训练,这使得它们的探索能力受到训练数据中存在的偏差的限制。
2
方法
2.1 基于采样的分子优化
与一般的分子生成略有不同,分子优化以一个分子X为输入,目的是获得一个新的分子Y,它与X相似且具有比X更理想的药物特性。
本文提出了一种基于马尔可夫链蒙特卡罗(MCMC)的采样策略。MCMC方法是估计后验分布常用的贝叶斯采样方法,该方法在得到样本非归一化概率密度的情况下允许从复杂的具有理想采样效率的分布中提取样本。
2.2 分子采样的MIMOSA方法
图1说明了MIMOSA的整个过程,该过程可以分解为以下步骤:
(1)预训练GNN:MIMOSA使用大量未标记的分子对两个图形神经网络(GNN)进行预训练,这些分子将在采样过程中使用。然后,MIMOSA迭代以下两个步骤:
(2)候选分子生成:通过对当前分子的修饰操作(添加、删除、替换)生成候选分子并评分。
(3)挑选候选分子:通过重复步骤2和3进行MCMC采样,为下一次采样迭代选择有希望的候选分子。所有的修饰操作都是在子结构(原子或单环)水平上进行的,亚结构集包括全部118个原子和31个单环。
图1
(I)用于子结构类型和分子拓扑预测的预训练GNN
为了准确地表示分子,在大分子数据集上预先训练分子嵌入。用图表示分子,其中每个子结构都是一个节点,作者建立了两个基于GNN的预训练任务来辅助分子修饰,这两个GNN将评估每个子结构受分子图中所有其他子结构制约的概率。选择训练两个单独的GNN是因为存在很多未标记分子样本,而且这两个任务在本质上差异很大。两个GNN模型中,一个用于子结构类型预测,称为mGNN,另一个用于分子拓扑预测,称为bGNN。
mGNN模型:以多类分类为目标,用于预测掩码节点的子结构类型。mGNN模型根据其他子结构和连接来输出单个子结构的类型。用一个特殊的掩码指示器单独掩码子结构。
bGNN模型:旨在对分子拓扑结构进行二分类预测。bGNN的目标是预测节点是否会扩展。
(II)通过子结构修改操作来生成候选对象
借助于mGNN和bGNN定义子结构修饰操作,即对输入分子Y进行替换、添加或删除操作。
(III)通过MCMC采样进行候选分子选择
生成的候选分子集合可以根据它们接受的子结构修饰的类型被分组为三个集合,即替换集合Splace、添加集合Sadd和删除集合Sdelete。MIMOSA使用MCMC的一种特殊类型Gibbs采样,用于候选分子选择。Gibbs采样算法根据其他变量的当前值,按顺序或随机顺序从每个变量的分布中生成一个实例(见算法1)。
算法1
2.4实验
数据集和分子属性 使用ZINC数据库中的200万个分子来训练mGNN和bGNN。关注分子属性药物相似性定量评估(QED)、多巴胺受体(DRD)和受罚LogP(PLogP),它们得分越高越好。对于化学上有效的分子,它们的QED、DRD2和LogP分数可以使用RDkit包来评估。
基线方法 将MIMOSA与联合树变分自动编码器(JTVAE)、变分联合树编码解码器(VJTNN)、图卷积策略网络(GCPN)和遗传算法(GA)三种分子优化基线进行比较。
指标 考虑输入和生成的分子之间的相似性、QED、DRD和PLogP中生成分子的属性改善以及基于输入分子X和生成分子Y之间的相似性和属性改善的成功率(SR)。
3
结果
实验1 优化多个属性
为了评估模型在优化多个药物属性上的性能,考虑了以下属性约束的组合:(1)优化QED和PLogP;(2)优化DRD和PLogP。从表2看,MIMOSA在所有指标上都有明显更好和更稳定的性能。
表2
实验2 优化单属性
由于大多数基线模型都是为优化单药属性而设计的,所以本实验比较了MIMOSA和它们在优化以下单属性方面的差异:(1)DRD;(2)QED和(3)PLogP。从表3中的结果可以看出,在优化单个药物属性时,MIMOSA仍然取得了最好的整体性能。输出和输入分子之间的高度相似性是分子优化任务的关键,在这方面MIMOSA的表现明显优于其他基线。
表3
实验3 案例研究:对局部结构变化敏感的属性
MIMOSA对局部结构变化敏感属性的改善效果如图2所示,通过原子的取代增加了输入分子的PLogP(降低了极性),同时提高了药物的相似性(QED)。
图2
采样效率。采样复杂度为O(N N2),其中N表示候选集合的大小,N2是可能的提出集合的大小(<200)。整个采样过程中,大约需要10-20分钟的时间来优化一个源分子,这对于分子优化来说是可观的。并且MCMC有效率更高的直接以非归一化分布的操作。所有分子优化方法都在它们的学习过程中使用RDKit。
4
结论
本文的主要贡献如下:
1)一种新的采样框架,可灵活地对多个约束进行编码。在采样框架下重新制定了分子优化任务,以从目标分布(等式)中提取分子。该框架提供灵活高效的多属性和相似性约束编码作为目标分布。
2)通过GNN预训练增强有效采样。在两个预先训练的GNN模型的帮助下,设计了一种基于马尔可夫链蒙特卡罗(MCMC)的分子采样方法,该方法能够从目标分布中进行有效的采样。这使得MIMOSA能够以无监督的方式利用海量分子数据,而不需要像许多现有方法那样了解任何分子对(即输入分子和增强分子)。
3)保证无偏采样。给出了理论分析,表明所提出的MCMC方法从目标分布中提取无偏样本,即表现出遍历性和收敛性。
参考资料
原文:https://arxiv.org/abs/2010.02318