前沿报告 | 机器学习在化学和材料科学中的应用

数据科学人工智能

发布于 2022-03-31 16:10:43

1.9K0

发布于 2022-03-31 16:10:43

这是发表在顶级期刊《现代物理评论》上的综述文章“Machine learning and the physical sciences”的第六节。作者为Giuseppe Carleo ，Ignacio Cirac等。翻译：Wendy 链接：https://blog.csdn.net/Wendy_WHY_123/

Ⅵ 化学和材料科学

机器学习方法已被应用于预测分子和固体的能量和性质，并且这种应用的受欢迎程度急剧增加。原子相互作用的量子性质使能量评估的计算量很大，因此，当需要进行许多此类计算时，机器方法尤其有用。近年来，ML 在化学和材料研究中的不断扩展的应用包括预测相关分子的结构，基于分子动力学模拟计算能表面，识别具有所需材料特性的结构以及创建机器学习的密度泛函。对于这些类型的问题，输入描述符必须以紧凑的方式解决原子环境中的差异。

当前使用ML进行原子建模的许多工作都是基于早期工作（Behler和Parrinello，2007）。将具有对称函数的局部原子环境，用于输入原子神经网络，使用高斯过程回归方法（Bartók）表示原子势。等人，2010年），或使用按核电荷加权的排序的原子间距离（库仑矩阵）作为分子描述符（Rupp等人，2012年）。Behler（2016）进一步综述了合适结构表示方面的工作。Butler（2018）等人讨论了关于化学系统的通用 ML 方法，包括学习结构-特性关系。Rupp（2018）重点关注数据增强的理论化学。在以下各节中，我们将介绍 ML 在化学物理学中的最新应用案例。

A 基于原子环境的能量和力

ML 在化学和材料研究中的主要用途之一是预测一系列相关系统的相对能量，最典型的是比较相同原子组成的不同结构。这些应用旨在确定最可能在实验中观察到的结构，或鉴定可合成为候选药物的分子。以有监督学习为例，这些 ML 方法采用各种量子化学计算来标记具有相应能量()的分子表示()，以生成训练（和测试）数据集。

在量子化学应用中，神经网络在预测一大类系统的相对能方面取得了巨大的成功。例如通过描述每个原子局部原子邻域的多体对称函数来组成异构体和分子的非平衡构型（Behler，2016年）。该领域的许多成功都源于这种类型的分子能的原子分解，每种元素都使用单独的 NN 表示（Behler和Parrinello，2007）（见图6(a)）。例如，ANI-1是一种深层的NN电势，已被成功训练以返回任何具有多达8个重原子的分子的密度泛函理论（DFT）能量（Smith等人，2017）。在这项工作中，训练集的原子坐标被选择使用正常模式采样，包括一些振动扰动和优化的几何结构。

分子和原子系统的通用神经网络的另一个例子是深势分子动力学方法，该方法专门用于在对体模拟的能量进行训练后运行分子动力学模拟（Zhang等人，2018）。除了通过系统的总能量简单地包含非局部相互作用之外，另一种方法是从标准计算物理中使用的多体扩展中得到启发的。在这种情况下，增加层以允许原子为中心的NN之间相互作用可以改善分子能的预测（Lubbers等人，2018）。

图6 目前在 ML 模型中有几种表示法用来描述分子系统，包括（a）原子坐标，其对称函数编码局部成键环境，作为基于元素的神经网络的输入。（b）用高斯函数和近似核势作为电子密度的输入核岭回归模型。

由于在 NN 输入中引入了对称函数，因此上面的例子使用了原子环境的平移和旋转不变表示。对于某些应用，例如描述分子反应和材料相变，原子表示也必须是连续且可微的。原子位置（SOAP）内核的平滑重叠通过包括原子环境之间的相似性度量标准来满足所有这些要求（Bartók等，2013）。保留交替分子表示中的对称性的最新工作以不同的方式解决了这个问题。为了利用"库仑矩阵"输入的已知分子对称性，结合了键（刚性）和动态对称性以改善配置空间中训练数据的覆盖范围（Chmiela 等，2018）。这项工作还包括训练中的力，允许在小分子耦合簇计算的水平上进行分子动力学模拟，这在传统上是很难解决的。还可以了解分子的对称性，如确定使用连续过滤器卷积描述原子相互作用的局部环境描述符（Schütt等人，2018）。紧凑、独特和可区分的原子环境描述符的进一步发展必将促进 ML 模型在分子和材料研究中的新用途。

但是，机器学习也已经以与常规方法更紧密集成的方式应用，以便更容易地并入现有代码中。例如，可以学习与经典力场兼容的原子电荷分配，而无需为每个感兴趣的新分子进行新的量子力学计算（Sifain等人，2018）。另外，分子种类的凝聚相模拟需要准确的分子内和分子间电势，这很难进行参数化。为此，可以将局部NN电势与物理激励的远程库仑和范德华力贡献相结合来描述更大的分子系统（Yao等人，2018）。局部 ML 描述还可以与多体扩展方法成功结合，以允许将 ML 势能应用于大型系统，例如水团簇（Nguyen等，2018）。另外，可以将分子间的相互作用拟合到一组在单体上训练的 ML 模型，以创建二聚体和簇的可转移模型（Bereau等，2018）。

B 势能面和自由能面

机器学习方法也被用来描述自由能表面（FES）。不同于如上所述直接学习每个分子构象的势能，另一种方法是学习系统的自由能表面作为集体变量的函数，例如全局Steinhardt阶参数或一组原子局部的二面角。使用 NN 的自由能表面的紧凑 ML 表示，可以在计算取决于构象体集合的可观察物时改进对高维空间的采样。例如，可以对学习到的FES 进行采样，以预测压力下固体氙的等温可压缩性，或预测肽的预期 NMR Spinspin J 偶联（Schneider等人，2017）。代表 FES 的小型 NN 也可以使用实时自适应采样生成的数据点进行迭代训练（Sidky和Whitmer，2018年）。

这种有前途的方法强调了在使用 ML 模型本身生成新的训练数据时，使用完整配置空间的平滑表示的好处。随着使用机器学习的 FES 表示法的增加，确定小型 NN 的精度极限以及如何将这些模型用作大型网络或其他ML架构的起点将变得很重要。

一旦在 FES 上确定了相关的最小值，下一个挑战就是要了解将一个系统从一个盆地转移到另一个盆地的过程。例如，开发描述构象变化的马尔可夫状态模型需要降维以将分子坐标转换为整体反应坐标空间。为此，已利用时滞自动编码器方法进行深度学习的功能来识别肽折叠例子中缓慢变化的集体变量（Wehmeyer和Noé，2018）。基于变分神经网络的方法也已被用于识别蛋白质折叠模拟过程中的重要动力学过程，并为统一坐标转换和FES 表面探索提供了框架（Mardt等人，2018）。一种有前途的替代方法是使用 ML 直接采样构象分布。玻尔兹曼生成器可以对集体变量空间的平衡分布进行采样，然后提供代表FES上状态分布的一组状态（Noé等人，2019）。

此外，在我们了解理解 M L模型为何表现出如此普遍成功的同时，在复杂的能源格局中寻找极小值之间关系的悠久历史也可能会有用。目前用于描述分子系统的方法和思想与相应方法之间的关系在（Ballard等，2017）中进行了综述。展望未来，物理学家开发的用于探索和量化能量分布特征的许多工具可能有助于创建新算法，以在训练过程中有效地优化模型权重。（另请参阅第II.D.4节中的相关讨论。）跨学科研究领域有望产生对机器学习和物理领域都有用的方法。

C 材料特性

使用基于局部环境学习的原子间势也极大地改善了材料性能的计算。匹配实验数据通常需要从可能的配置集合中进行采样，这在使用大型模拟单元和常规方法代价通常很大。最近，使用分子动力学预测了非晶硅的结构和材料特性，并且仅在小型模拟单元上通过密度泛函理论（DFT）计算训练了ML势（Deringer等人，2018）。Sosso（2018）等人综述了使用 ML 电势来建模材料（例如GeTe和非晶碳）的晶体和非晶区域之间的相变的相关应用。在原子和材料尺度上产生足够精确地描述相变和缺陷的相对能量的计算可控势是非常困难的，但是硅性能的最新成功表明 ML 方法正直面这个挑战（Bartók等，2018）。

理想情况下，也可以将实验测量结果纳入旨在预测材料性能的数据驱动的 ML 方法中。但是，当前的研究结果往往仅限于高性能材料，而没有针对训练过程的反例。另外，带噪声的数据加上缺少输入到 ML 模型所需的精确结构信息。对于有机分子晶体，通过使用对 DFT 计算的已知结构值进行训练的高斯过程回归框架，克服了对局部环境非常敏感的 NMR 化学位移预测的挑战（Paruzzo等，2018）。在训练ML模型之前，将计算值与实验结果进行匹配可以验证预测的药物晶体结构。

其他有趣的方向包括通过聚类识别结构相似的材料，并使用凸包构造确定在某些热力学约束下，许多预测结构中哪一个最稳定（Anelli等，2018）。使用核 PCA 描述符来构造凸包的过程已被用于识别冰晶相，并被证明可以聚集成千上万个仅因质子无序或堆垛层错而不同的结构（Engelet等，2018）（见图7）。基于有监督和无监督技术相结合的机器学习方法无疑有望在未来成为一个富有成果的研究领域。特别地，识别、预测或甚至建议表现出特定所需特性的材料仍然是令人兴奋的挑战。

图7 基于机器学习的描述符对成千上万种可能的冰结构进行聚类，识别出观察到的形式，并将相似的结构组合在一起。（Engel et al., 2018）

D 密度泛函理论的电子密度

在上面的许多例子中，密度泛函理论计算已用作训练数据的来源。可以肯定的是，机器学习在创建新的密度函数中也发挥着作用。对于 DFT 等情况，我们不了解精确解决方案的函数形式，因此机器学习是很自然的选择。通过逼近一维势阱中电子分布的动能函数来说明这种识别密度泛函的方法的好处（Snyder等，2012）。为了在基于 Kohn-Sham 的标准 DFT 代码中使用，ML 函数的导数也必须用于发现适当的基态电子分布。在没有进一步修改的情况下使用核岭回归可以导致噪声的导数，但是使用 PCA 将产生的能量投射回学习的空间可以解决此问题（Li等，2015）。一维系统已经证明了基于神经网络的学习交换相关潜力的方法（Nagai等人，2018）。在这种情况下，ML 方法直接利用了神经网络训练步骤中生成的导数。

如图6(b)所示，通过使用 ML 生成与核势相对应的适当基态电子密度，也有可能完全绕开函数导数（Brockherde等，2017）。此外，这项工作表明，还可以利用电子密度作为输入来学习分子系统的能量，从而可以基于 DFT 能量对质子转移事件进行反应性分子动力学模拟。有趣的是，近似的电子密度（例如来自孤立原子的密度之和）也已成功地用作预测分子能量的输入（Eickenberg等人，2018）。一种用于周期性结晶固体的相关方法是使用嵌入式原子方法的局部电子密度来训练贝叶斯 ML 模型以返回总系统能量（Schmidt等人，2018）。由于总能量具有广泛的性质，因此还开发了基于局部电子密度总和的可扩展 NN 模型，以对2D多孔石墨烯片材进行基于DFT的大型模拟（Mills等人，2019）。有了这些成功，很明显在给定密度的情况下，机器学习提供了学习电子密度和相应系统能量的新方法。

如今，许多基于人工的方法来改善所使用的近似功能都依赖于施加物理上的约束。到目前为止，包括对基于 ML 的方法的这些类型的限制仅取得了部分成功。例如，要求 ML功能满足一个以上的约束（例如缩放定律和大小一致性）以系统依赖的方式提高整体性能（Hollingsworth等，2018）。对于尚未获得此目标明确训练的物理学知识的 ML 功能和潜能，尤其对于具有构象变化的分子而言，获得准确的导数仍然是一个悬而未决的问题（Bereau等，2018; Snyder等，2012）。

E 数据集生成

机器学习的其他应用还包括提供比较各种方法需要标准化的数据集。对于量子化学，这些包括 QM9 数据集中的134,000个分子（Ramakrishnan等人，2014）和由其他小分子和肽数据集的随机采样子集组成的 COMP6 基准数据集，每个条目均使用相同的参数进行计算优化方法（Smith等人，2018）。

在化学和材料研究中，计算数据的生成十分昂贵，因此必须仔细考虑训练数据点的选择。输入和输出表示形式也可以作为选择数据的标准。对大多数 QM9 数据集的 ML 预测分子能的检查表明，选择能够传达构象异构体变化的输入数据结构非常重要（Faber等人，2017）。

另外，并非总是需要化学成分空间的密集采样。例如，（Smith等人，2018）最初使用的个分子的训练集可以替换为使用主动学习方法选择训练点，该学习方法在每个训练周期中添加了预测较差的分子样本。也可以使用其他采样方法来更有效地构建训练集。例如通过对新分子的多个神经网络评估来估计误差的主动学习方法（Gastegger等，2017）。使用先前生成的模型基于分子动力学模拟生成新的原子配置（Zhang等，2019）。（Seung 等，1992b）提出了有趣的基于统计物理学的对这种主动学习的理论方面的见解。

这一领域需要进一步工作来确定对鉴别候选结构最重要的原子组成和构型。虽然神经网络已经显示出可以产生准确的能量，但在许多情况下，防止过度拟合所需的数据量可能过高。对于特定任务，例如预测小分子甲醛的振动频率的非谐贡献，尽管需要更仔细地选择这些点，但高斯过程方法比 NN 更为准确，并且使用的点更少（Kamath等人，2018））。在为每种应用选择合适的 ML 方法时，平衡数据生成的计算成本，简化模型训练和模型评估时间仍然是重要的考虑因素。