前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >JCIM|贝叶斯算法下的逆合成预测

JCIM|贝叶斯算法下的逆合成预测

作者头像
智能生信
发布2021-03-19 14:26:58
7460
发布2021-03-19 14:26:58
举报
文章被收录于专栏:智能生信智能生信

作者 | 王豫 编辑 | 庞超、李仲深

今天给大家介绍的是日本统计数学研究所Zhongliang Guo等人在Journal of Chemical Information and Modeling上发表的一篇名为“Bayesian Algorithm for Retrosynthesis”的文章。目前,新兴的机器学习技术正在重新制定逆合成规划的过程。这项研究的目的是发现从特定的分子到商用化合物的合成路线,被简化为一个组合优化任务,其解空间受所有可能的可购反应物对的组合复杂性约束。作者在贝叶斯推理和计算的框架内处理这个问题。该工作包括一个深度神经网络的训练,能够对给定反应物的组合进行高精度的前向预测,然后利用贝叶斯条件概率定理将正向模型反演为逆向模型。贝叶斯逆合成算法的正向模型预测精度约为87%。作者还研究了基于专家知识的不同候选物的潜在适用性。

一、研究背景

逆合成规划的目标是设计出从给定的理想分子到商业上可用的起始材料的合成路线。早期的逆合成系统依赖于手工编码的反应规则或从反应数据库中提取的算法。一个可行的反应规则对目标产物的适用性是根据规则集中候选反应位点周围的局部结构或原子特征的存在来评估的。最近,机器学习算法被用来确定哪些规则需要选择。这样的优先转化,例如打破化学键的规则,被递归地应用到当前的分子上,以获得结构更简单的前体,直到生长的合成树伸展到容易获得的底物。

作者在文章中指出,现有的逆向预测模型大多存在两个问题。首先是模型预测出的大多数候选反应物很少包含在一组给定的可购买化合物中。许多无法购买的反应物很可能出现在模型提出的反应序列中,这导致了反应路线的延长从而降低了逆合成反应路线的可行性。例如,如果一个合成产物通过一个逆合成预测模型分解成两种不可购买的反应物A和B。在该情况下,进一步确定合成A和B的路线是必要的。然而,如果限制其中一种或两种反应物的可购买性,可以使模型提出的反应在实验上更容易实现。这项研究通过明确地将搜索空间限制在一组可用的反应物上,来改善模型提出的反应的合成可及性。

另一个缺点是由于基于机器学习的反合成任务的不适定性导致反反应模型的预测能力有限。原因之一是反应数据中的信息丢失,例如合成反应的副产物往往没有记录在数据集中。例如,考虑一个反应A+B=C+D,数据库经常省略了副产品D,也就是说,它只记录了A+B=C。在通常情况下,缺失结构D包含了反应物A,B的结构信息,所以仅由给定的C预测A+B是一个不适定问题。如表1所示,在已知反应物的逆合成预测中,先前报道top1精确度的37 - 52%之间,远低于正向预测模型top1精确度(70%~91%)。逆向预测问题的不适定性质是造成其性能有限的原因之一。

表1.现有方法在正向和逆向合成反应预测方面的性能

考虑到上述情况,作者提出了一种由正向和反向预测组成的两步预测方法。用一个训练好的高可预测性的正向模型定义了从一组反应物S到产物Y的映射:;通过求解逆映射合成目标

可以以获得一个高合成可及性的逆合成。这里要解决的问题是一个组合优化问题,其解空间服从目录中所有可能的可购反应物对的组合复杂性。该复杂性随候选反应物的数目以及所考虑的反应步骤的数目呈指数增长。在本研究中,作者在贝叶斯推理的框架内处理反应挖掘的任务,即贝叶斯逆合成,它提供了一个原则性的方法,可以将任何给定的正演模型转化为逆合成预测系统。为了提高搜索效率和详尽地枚举备选路径,作者使用代理模型加速器开发了一种序列蒙特卡罗(SMC)算法,如图1所示。

图1. 贝叶斯逆合成算法的工作流程

二、模型与方法

2.1 概览

在单步反应预测模型中,产物被描述为一组反应物的函数,其中由个反应物组成。利用这种模型,可以模拟任何的单步反应。在这里,函数被视为确定性的。溶剂、试剂和催化剂可以根据需要增加输入变量。

一个以最终产物结尾的步反应序列可以对单步反应模型与任意的反应物集合(在每一步中表示为)卷积次得到。

S^{1} \rightarrow S^{2} + Y^{1} \rightarrow \ldots \rightarrow S^{k} + Y^{k - 1} \rightarrow Y

其中表示上一步产物与当前选定反应物的中间产物。为简便起见,多步模型记为,其中是对单步反应进行次卷积的复合函数,将所有反应物串联成一个序列。接下来,假设一个固定长度的序列包含了种参与了k步反应的反应物。逆合成预测的最终目标是为给定的合成目标列举出所有满足的可能的,或者,求解正演模型的逆映射。解空间是由所有可以买到的种反应物组成的。候选反应物的数目一般在,这导致了探索阶空间时的指数爆炸。

某些情况下,我们可能想要确定一个的集合,它近似地满足要求,而不是得到一个严格的解。首先,对于给定的正向模型,所有的候选反应物都可能达不到目标产物。此外,如果模型不正确,真正的反应物应该接近最优解。从技术上讲,所有的机器学习模型都是错误的,因此,正演模型的严格解在现实世界中并不总是正确的。反合成预测模型是促进合成化学家创造力的简单工具。在确定了各种各样的候选物质之后,最后的决定应该留给合成化学家。在这种情况下,研究S的分布近似满足比仅仅获得一个严格的解更有益。这是在贝叶斯框架内处理合成分析的基本概念。

贝叶斯逆合成法依赖于贝叶斯条件概率定律:

p\left( S \middle| Y = y^{*} \right) \propto p\left( Y = y^{*},S \right) = p(Y = y^{*}|S)p(S)

该定律说明后验概率分布与联合概率分布成正比,该联合概率分布由似然和先验的乘积组成。正向预测模型形成联合概率分布,其由玻尔兹曼分布给出(为温度倒数),如下所示:

p\left( Y = y^{*},S \right) \propto exp( - \beta E(Y = y^{*},S))

能量函数由产物和模型预测出的产物的化学结构的欧几里得距离(或古本距离)提供。距离由RDKit和diameter 4计算分子的拓展连通性指纹(ECFP)得到。通过设置值的大小可以控制解决方案的多样性。在该研究中,作者采用了一个在迭代算法中使用了非递减序列的退火程序。

后验为离散概率分布,这里是一个指示函数(如果取1,否则取0)。这种离散测量的支持是由合成路线中r种反应物的所有可能组合组成的。由于种候选物的精确计算是不可行的,作者探索了其近似形式 ,如下所示:

\widehat{p}\left( S \middle| Y\ = y^{*} \right) \propto \sum_{i}^{n}{p\left( Y = y^{*},S \right){\delta_{S}}_{i}\left( S \right)}

叶斯计算的主要目标是识别n个反应物对的缩减集合,可能会有。具有更大值的的候选物会有更大几率保留。

2.2 代理后验分布加速蒙特卡洛采样算法(SMC)

对一个巨大的离散空间进行后验分布采样是一项极其困难的任务,传统的启发式算法不能解决这个问题。作者引入了代理模型辅助蒙特卡罗算法,以节省反应预测模型的成本,同时保持粒子的多样性即高度可能的解。这种策略的一个关键概念是使用计算成本低廉的替代模型,如梯度增强回归,以近似地评估任何给定反应物的Molecular Transformer中的后验概率。对于m个随机选择的反应对实例,其后验概率可以使用前向模型的提出的top-1产物或任意的给定目标的观察产物来计算。在这里,作者训练了一个梯度增强回归树,它可以用来预测时的,而不需要通过成本高昂的Molecule Transformer(图2)。

图2.替代模型预测的能量被用来优先考虑有希望的反应物

2.3 排名和优先级

代理加速SMC算法到一个给定产品的假想路线通常会过多,在许多情况下,对于一步反应有几百条假想路线。这些候选物大部分都是化学上不现实的和错误的结构,这可能是由于在机器学习工作流中无法获得失败的反应或低产量反应的数据。事实上,在接下来的应用中,经化学专家断定,大约65%的建议的解决方案是不合理的,这些方案在确定的反应路线中极低或没有反应性。这里,作者考虑使用启发式排序方法或反应型分组来对更有希望的候选对象进行优先排序。

其中,排序法对给定的反应物序列打分为:

\gamma\left( S \right) = \alpha(S)max\{ p\left( \left\{ Y_{S},S \right\} \in C_{1} \right),\ldots,p(\left\{ Y_{S},S \right\} \in C_{10})\}

其中表示Molecule Transformer对候选的输出概率,表示属于规定的已知反应类的概率。在本研究中,作者仅考虑了Schneider等人定义的10种反应类别。手工设计的启发式评分的基本策略是,在已知的反应类别中具有高度可辨性的候选反应被认为是可靠的。该排序方法旨在给予接近已知响应类型的候选物较高的优先级。研究人员利用可用的反应数据构建了一个模型,以推荐与先例衍生模板匹配的合成路线。应该指出的是,排名的目的只是在实践中在有限的资源下审查大量候选物时分配优先级。但是,在某些情况下,没有必要优先考虑级别较高的项目。应该检查所有被提议的候选产物的分布情况,以了解所需产物的各种潜在路线。

另一种选择有希望的候选物的方法是基于反应模式的分组。为了可视化识别出的合成路线在低维空间中的分布,对所有给定S的增强指纹投影到二维空间上,进行t-分布随机近邻嵌入(t-SNE)。此外,在t-SNE投影上进行了X-means聚类,以自动确定聚类的数量和反应模式的分组,如图3所示。

图3.两个合成目标(a和b)的候选反应物分布

对于每个簇,选择一个具有代表性的反应,显示出最好的簇内得分。通过这种方式,可以推断出有多少不同类型的合成路线可能存在或可行的设计与一组给定的购买化合物。

三、实验及结果

3.1 单步逆合成

作者从一个或两个反应物组成的测试集中随机选取1000个测试反应。在1000个反应中,Molecular Transformer模型可以预测出855个反应的真实产物。粒子的数量被设置为1000。对于代理加速的SMC,作者完全随机选取1000个初始粒子;然而,在实践中,基于与给定合成目标的结构相似性,可以有效地缩小候选初始粒子的范围。SMC的前100步中,每个粒子包含一个反应物,探索一个反应物的反应空间。在随后的500个步骤中探索了两种反应物的反应空间,其中两种反应物的组合构成一个粒子。在每个试验反应中,使用代理加速SMC对正向反应模型共进行600 000次(=600x1000次)评价,约相当于整个搜索空间的0.0001%。对于1000个目标分子中的98.0%,贝叶斯逆合成算法提出了一个或多个精确以每个目标结尾的解决方案。在1000个目标中,有92.0%的目标溶液中发现了真实反应物。针对MolecularTransformer模型能预测出的855种反应,找出了符合实际的反应物,成功率为98.1%。

当考虑比较实验的结果时,重要的是要注意贝叶斯逆合成是在由给定反应物组合组成的预定义搜索空间中进行预测的;然而,其他方法的搜索空间要大得多,预测任务可能会或多或少地变得困难。这项研究的主要目的是提供一套不同的合成路线,使用任意选择的候选反应物来提高合成的可行性,而不是寻找所谓的真实反应。

3.2 多步逆合成

将代理加速SMC应用于两步合成路线的设计。这里,考虑的两步反应,其中是第一步生成的中间产物,是期望的最终产物。将三种反应物视为未知。结合预测的单步反应的Molecular Transformer模型测试反应组和USPTO_STEREO反应组,作者生成的一组真实的两步反应如下:如果一个产品的记录反应物反应出现在不同的反应,那么这两个反应是连接形成一个两步合成路线。前者的产物作为第二步反应的反应物作为中间产物。共构建了21个两步反应。由于数据库中可能包含不正确的反应或省略中间步骤的反应,因此提取的反应序列经过了化学专家的验证,如表2所示。

表2.真值集合,包括21个目标化合物的两步合成路线

为了观察候选合成路线的分布,图4给出了反应9中被检测反应物的t-SNE投影。候选反应物越接近记录的反应物得分越高。为了识别候选合成路线中的不同基序,X-means聚类应用于反应物的ECFPs,将其分组为98个聚类。作者研究了10个团簇中各得分最高的10个提议反应的合成可行性(图4)。根据化学专家的评价,10条路线中有7条是化学反应和可合成的。在候选路线1到3中,第一和第二步分别被称为Williamson醚合成和钯催化偶联反应。在候选路线9中,第二步是合成醚的反应。应该强调的是,仅按分数进行排名并不总能揭示这些有希望的合成路线;基于聚类过程提取不同的候选集对于提高化学家的研究能力是很重要的。

图4. 反应9中6613个候选合成路线的t-SNE预测

四、总结

贝叶斯逆合成算法揭示了目标产品的众多替代路径的存在;这些路线在训练的反应预测模型中编程。确定这些不同的候选路线可能有助于激发有机合成研究人员的想法。然而,化学专家得出的结论是,几乎65%的两步反应是错误的发现。目前,对是否存在反应性的预测超出了任何合成预测模型的能力,因为这些模型仅对从发布数据中提取的高度反应性实例进行训练。失败和低收率反应的负面数据的缺乏,使得无法获得有效的机器学习模型来确定候选合成路线中反应的存在或不存在。之前的一些研究通过扰乱和打乱报告的已知反应来产生人为的负面例子。在这项研究中,作者引入了一个启发式规则,以排名和优先排序候选反应路线。然而,这些方法都不能在基础层面上解决问题,最终,必须从实验室合成的实验观察、文献、化学家手工编码的启发式和/或高通量量子化学计算中创建一个全面的负面反应数据集。


参考文献

Bayesian Algorithm for Retrosynthesis,ZhongliangGuo, Stephen Wu, Mitsuru Ohno, and Ryo Yoshida Journal of ChemicalInformation and Modeling 2020 60 (10),4474-4486 DOI: 10.1021/acs.jcim.0c00320

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档