Waller教授团队Nature发文:深度神经网络和符号人工智能助力化学合成

复杂化合物的合成路线设计一直是化学合成工作者关心的重点。选择恰当的合成路线可以事半功倍,而考虑不周的合成路线则会遇到重重困难。自合成大师E. J. Corey在上世纪60年代提出逆合成分析以来,不断有科研人员在计算机辅助合成设计(Computer-assisted synthesis planning)的道路上做出努力。近日,上海大学量子与分子结构国际中心(ICQMS)的Mark Waller教授及其团队在Nature杂志上发表了题为“Planning chemical syntheses with deep neural networks and symbolic AI”的研究论文,为解决该问题又前进了一步。

传统的计算机辅助合成设计往往运行速度慢,经常给出不合理结果。定义层级式的合成路线存在着诸多困难:1、逆合成分析中化学键切断的位置没有统一的标准,不同的化学家倾向选择不同的策略来分解复杂分子;2、尽管在逆合成分析中,复杂化合物被转化成简单的砌块(building-block),但是有时也会增加保护基变相的提高砌块的复杂度;3、前体的价格、易获得程度也决定了化学键切断位点的优劣。因而不到分析的最后一步,无法判断整个合成路线的优劣程度。

逆合成分析示意图目标分子分子1,采用不同的转化方式可以以获得不同的合成路线,这些合成路线组合起来称之为搜索树(Search tree)图片来源:Nature.

Mark Waller教授团队同时使用三种不同的神经网络并结合蒙特卡洛树搜索(Monte Carlo tree search,MCTS)组成了一种新的人工智能算法(3N-MCTS),用来发现恰当的逆合成路线。蒙特卡洛数搜索作为搜索逆合成路线的框架,三种神经网络分别应用在搜索节点的拓展(Expansion)展示(Rollout)中。第一种神经网络称为拓展策略网络(expansion policy network),用来搜索可能的化学键断裂方式;第二种神经网络称为筛选网络(filter network),用来对反应的可行性做出判断;第三种神经网络称为展示策略网络(rollout policy network),用来在展示中应用随机采样方法对搜索节点进行评价打分。研究人员采用Reaxy数据库中记录的2015年之前的化学反应作为知识集合来对这些网络进行训练,并应用2015年之后的记录来对模型进行验证和测试。

蒙特卡洛树搜索(Monte Carlo tree search,MCTS)算法是该程序的核心部分。应用该算法,无需对全局条件进行搜索,而是建立不对称的搜索树,从而快速得到较优解。

蒙特卡洛树搜索示意图a.合成设计应用蒙特卡洛树搜索;b.拓展策略程序图片来源:Nature.

蒙特卡洛树搜索(MCTS)是一个不断迭代的过程,每次迭代可以分为四步:

(1)选择(Selection):从根节点(目标分子)开始,算法会选择评分最高的节点进行展示(Rollout,步骤3)或者拓展(Expansion,步骤2)。如果该节点是第一次评估,则进入展示步骤,若是第二次评估,则进入拓展步骤;

(2)拓展(Expansion):在搜索树中创建新的节点,拓展的步骤如上图b中所示,包括分子编码、扩展策略网络搜索、保留k个最优转变方式、筛选网络,最终得到最可能的反应成为新的节点;

(3)展示(Rollout):该节点内包含的合成砌块的转化方式进行随机采样,直至得到可获得的起始原料或达到既定的搜索上限;

(4)更新(Update):在由根节点到成功获得起始原料的父节点上增加一个评分,作为本次决策的结果。

研究结果表明:相比之前的计算机辅助合成设计的方法,如最佳优先搜索(best first search,BFS)等方法,3N-MCTS在搜索速度、得到有效搜索的比例上都有明显提升。若限制单个分子5秒的时间内搜索得到路线,3N-MCTS可以解决80%左右的复杂分子合成路线。

在随后的双盲实验中,45名有机合成人员对9个复杂分子的文献报道合成路线和3N-MCTS设计的合成路线进行判断,有57%的人员选择3N-MCTS设计的路线,43%的人员选择了文献报道路线,两者之间并无统计学差异(P-value = 0.26)。这表明3N-MCTS的设计路线已经达到了和化学家相近的程度!

尽管目前科学家在计算机辅助合成设计已经迈出了非常耀眼的一步,但是仍然有许多问题亟待解决:

深度学习需要大量的样本,已有的数据库仍需要更多的化学反应实例。深度学习同样需要阴性数据进行训练,然而这些反应数据库中的阳性数据(可行路线)远远高于阴性数据(不可行路线)。在不对称合成、对映异构体、非对映异构体的选择合成路线预测还存在一定的障碍。目前的人工智能还是基于已有的数据,对一些反应机理、三维结构或是构象异构体对复杂化合物合成的影响还无法考虑。当然,目前的方法只是提供了一个可能的路线,而对反应的条件还是无法做出准确的预测。

人工智能并不会完全取代合成化学家。合成化学家在实际科研中会发现新的反应,拓展化学的理论基础。但AI必将成为化学家强有力的助手,帮助化学家更快、更好地发现合成路线!

参考文献:Segler, M. H.; Preuss, M.; Waller, M. P., Planning chemical syntheses with deep neural networks and symbolic AI. Nature 2018, 555 (7698), 604.

科研有乐趣!

计算有乐趣!

ComputArt

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180409G162L300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券