业界 | 分子性质预测新突破：谷歌新型神经网络助力化学研究

机器之心

发布于 2018-05-07 14:39:32

1.4K0

发布于 2018-05-07 14:39:32

文章被收录于专栏：机器之心

选自Google Research Blog

作者：George Dahl

机器之心编译

参与：吴攀

理论上讲，由原子构成的分子种类的数量是无穷大的。要了解这些分子的性质，化学家往往要进行很多严格的实验，随着新分子的不断出现，这样的工作也是无穷无尽的。为了帮助化学家更快地预测出分子的性质并协助进一步的开发（比如发现新药物或新材料），计算机科学家也在尝试构建能够基于分子的基本数据预测分子性质的算法和模型。近日，谷歌等机构的研究者发表了两篇论文介绍了他们在这方面的研究进展——达到了当前最佳的预测表现。在本文中，机器之心编译介绍了其成果介绍文章和两篇论文的摘要，研究详情请参阅对应论文。

机器学习（ML）近来已经在化学领域实现了很多激动人心的应用，尤其是在化学搜索问题上——从药物发现和电池设计到寻找更好的 OLED 和催化剂。历史上，化学家曾经在这些化学搜索中使用过薛定谔方程的数值近似方法，比如密度泛函理论（DFT）。但是，这些近似方法的计算成本限制了搜索的规模。为了实现更大规模的搜索，一些研究组已经使用由 DFT 所生成的训练数据创造了可用于预测化学性质的机器学习模型（如 Rupp et al. 和 Behler and Parrinello）。在这些之前的成果的基础上，我们将多种现代机器学习方法应用到了 QM9 基准上。QM9 基准是一个公开的分子集合，其中的分子都配对了相应的 DFT 计算出的电子、热力学和振动性质。

我们最近发表了两篇介绍我们在这一领域的相关研究的论文，这些成果来自于谷歌大脑团队、Google Accelerated Science 团队、DeepMind 和巴塞尔大学之间的合作。

第一篇论文《电子和能量性质的快速机器学习模型往往能达到优于 DFT 准确度的近似误差（Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy）》包含了一种新的分子特征化方法，并在 QM9 基准上对多种机器学习方法进行了一次系统性评估。在这个基准上尝试了许多机器学习方法之后，我们开始努力改进最有潜力的深度神经网络。

由此我们得到了第二篇论文《用于量子化学的神经信息传递（Neural Message Passing for Quantum Chemistry）》，该论文描述了一大类被称为「信息传递神经网络（MPNN：Message Passing Neural Network）」的模型，其定义比较抽象，足以囊括许多之前的图对称性（graph symmetries）不变的神经网络模型。我们在 MPNN 类别中开发了全新的变体，其在 QM9 基准上的表现极大地超越了所有基线方法，并在其中一些目标上实现了近 4 倍的提升。

从机器学习的角度看，分子数据非常有趣的一个原因是：一个分子的自然表征就像是一个图（graph），其中原子是节点（node）、键是边（edge）。能够利用数据中固有的对称性的模型往往能更好地进行归纳——卷积神经网络在图像上的成功的部分原因是它们有能力整合我们关于图像数据的不变性（比如，将一张狗的图像转移到左边，仍然还是一张狗的图像）的先验知识。图对称性的不变性是计算图数据的机器学习模型尤其期望的性质，在这一领域也有大量有趣的研究（如 Li et al.、Duvenaud et al.、Kearnes et al.、Defferrard et al.）。但是，尽管已经取得了这些进展，但仍然还有许多工作要做。我们希望为化学（和其它）应用找到这些模型的最好版本，并描绘本文献中所提出的不同模型之间的联系。

我们的 MPNN 在 QM9 中的所有 13 种化学性质上都达到了当前最佳的预测表现。在这个特定的分子集合上，我们的模型能以对化学家足够有用的准确度预测其中的 11 种性质，而其速度可以达到使用 DFT 模拟的 300,000 倍。但是，在化学家可以实际应用 MPNN 之前，还有很多工作要做。特别地，MPNN 必须被应用到比 QM9 远远更加多样化的分子集合上（比如，更大的或带有更多变的重原子集合）。当然，即使有更接近真实情况的训练集，也仍然难以很好地泛化到非常不同的分子上。克服这两个难题将涉及到机器学习领域的核心问题（比如泛化）上的进步。

预测分子的性质是一个尤其重要的问题，需要先进的机器学习技术，也为学习算法提出了有趣的基础研究难题。最终，分子预测将助力新药物和新材料的设计，从而造福人类。在谷歌，我们认为传播我们的研究并帮助训练新的机器学习研究者是很重要的。因此，我们很高兴我们的 MPNN 论文的第一和第二作者都是来自 Google Brain Residency Program。

以下是对上述谷歌两篇论文的摘要介绍：

论文一：电子和能量性质的快速机器学习模型往往能达到优于 DFT 准确度的近似误差（Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy）

地址：https://arxiv.org/abs/1702.05532

我们研究了回归子（regressor）选择和分子表征对快速机器学习模型的影响——用于预测有机分子的 13 种电子基态性质。每种「回归子/表征/性质」的组合的表现是通过一种学习曲线来评估的，该学习曲线将近似误差（approximation error）报告为一个关于训练集大小的函数。其训练和测试使用了在混合密度泛函理论（DFT）的理论水平上的分子结构和性质，数据来自 QM9 数据库 [Ramakrishnan et al, Scientific Data 1 140022 (2014)]；这些结构和性质包含偶极矩、极化率、HOMO/LUMO 能级和能隙、电子的空间范围、零点振动能、原子化（atomization）的焓和自由能、热容和最高基本振动频率。文献中已经出现了多种表征方法（Coulomb 矩阵、键袋（bag of bonds）、BAML and ECFP4、分子图谱 (MG)），以及新开发出的基于分布的变体，包括距离直方图（HD）、角度（HDA/MARAD）和二面（dihedrals）（HDAD）。回归子包含线性模型（贝叶斯脊回归（BR）和带有弹性网络正则化（EN）的线性回归）、随机森林（RF）、核脊回归（KRR）和两种神经网络——图卷积（GC）和门控图（GG）网络。我们提供了数值证据表明机器学习模型对所有这些性质的预测可以在化学准确度上达到与 DFT 相当的近似误差。这些发现表明，如果提供了明确的与电子相关的量子（或实验）数据，那么机器学习模型可以更加准确。

论文二：用于量子化学的神经信息传递（Neural Message Passing for Quantum Chemistry）

地址：https://arxiv.org/abs/1704.01212

在分子上的监督学习在化学、药物发现和材料科学领域有非常大的应用潜力。幸运的是，研究文献中已经描述了一些有希望的与分子对称性不变性紧密相关的神经网络模型。这些模型可以学习一个信息传递算法和聚合函数来计算它们整个输入图（input graph）的函数。到此，下一步就是找到这种通用方法的特别有效的变体并将其应用于化学预测基准，直到我们解决它们或达到这种方法的极限。在本论文中，我们将已有的模型重新形式化为了一个单一的共同框架，我们称之为信息传递神经网络（MPNN：Message Passing Neural Network），我们还在该框架内探索了其它全新的变体。使用 MPNN，我们在一个重要的分子性质预测基准上得到了当前最佳的结果；我们相信这个结果已经足够好了，足以使该基准退休了。