AI系统能帮助合成新材料

麻省理工学院的三位材料科学家及其同事发表的论文中,描述其 AI系统可通过科学论文和提取“食谱”合成特定类型的材料。

2017年11月,美国麻省理工学院的三位材料科学家及其同事发表论文,描述了一种新的人工智能系统,可钻研科学论文并提取“配方”,合成特定类型的材料。

这一工作被看做向为仅理论描述的材料生成配方的系统迈出的第一步。现在,在《计算材料学》(Computational Materials)期刊发表的一篇论文中,这三位材料科学家联合麻省理工学院电机工程与计算机科学系(EECS)的一位同事将这项工作继续往前推进,提出了一种新的人工智能系统,可以识别与配方一致的更高水平特征。例如,该新系统能确定材料配方中所用的“前体”化学物与得到产品的晶体结构之间的关系。后来发现,在文献中已记录了相同的关系。

该系统还依赖于提供了产生原始配方自然机制的统计学方法。在论文中,研究人员利用该机制为已知材料提出了不同的配方,且这些建议配方与真正的配方一致。

与过去10年很多表现颇佳的人工智能系统一样,麻省理工学院研究人员的这个新系统是所谓的神经网络,通过分析大量的训练集来学习执行计算任务。传统而言,利用神经网络生成材料配方的努力要解决两大问题,研究人员将其描述为稀疏与稀少。材料的配方可被表示成矢量,通常是一长串数字。每个数字代表着配方的一个特征,例如某种化学品的浓度、溶解它的溶剂、或者发生反应的温度。

由于任何制定的配方都只会用到文献中描述的各类化学品和溶剂的其中几种,所以大多数数字为零。这就是研究人员所谓的“稀疏”。类似地,要学习改变反应参数——例如化学浓度和温度——如何会影响最终产品,理想情况下系统会接受大量例子的训练,在这些例子中参数发生了改变。但是,对于有些材料——尤其是较新的材料,文献可能只含有少量的配方。这就是稀少。“人们认为有了机器学习,我们就需要大量数据,如果数据很稀疏,我们就需要更多的数据。”研究人员说,“如果我们尝试专注于很具体的系统,我们不得不用到高维数据,但这种数据我们没有很多,这种情况下,我们还能不能用这些神经机器学习技术呢?”

神经网络一般按层排布,每一层都包含了数千个简单处理单元,即节点。每个节点都与上下层的数个节点相连。数据输入底层,后者操作数据并将其传送到下一层,然后这层又操作数据并将其传送到下一层,以此类推。在训练中,节点之间的连接不断地调整,直至最后一层的输出与某些计算的结果大体一致。

稀疏的高维数据存在的问题是,对于任何指定的训练示例,底层的大多数节点没有接收数据。这会需要一个相当大的训练集才能保证整个网络有足够的数据来学习进行可靠的归纳。

麻省理工学院研究人员的网络旨在将输入矢量精炼成更小的矢量,让其中所有的数据对于每个输入都有意义。为了实现这个目标,该网络有一个节点很少的中间层,在有些实验中只有2个节点。

训练的目的很简单,对网络进行配置,使得它的输出与输入尽可能相近。如果训练成功,中间层的这些少数节点必须能代表输入矢量中包含的绝大部分信息,但结构更精简。这种系统称为“自动编码器”,它的输出努力与输入相匹配。自动编码补偿了稀疏,但是要处理稀少,研究人员不仅用生产具体材料的配方来训练网络,还用生产很相似材料的配方进行训练。他们利用了三种相似性,其中一种旨在保留晶体结构的前提下将材料之间的不同之处降至最低,例如用一个原子替代另一个原子。在训练中,网络提供示例配方的权重根据其的相似性分数而有所不同。

事实上,研究人员的网络不仅仅是自动编码器,而是“变分自动编码器”。这意味着,在训练中对该网络的评价不仅仅取决于其输出与输入的匹配性有多高,还取决于中间层得到的值与统计学模型的一致性有多高,例如我们熟悉的钟形曲线或正态分布。换言之,在整个训练集中,中间层得到的值应该围绕着中间值聚集,然后按照有规律的速率向四周逐渐减少。研究人员利用二氧化锰及相关化合物配方的两节点中间层训练变分自动编码器后,构建了二维地图描述两个中间节点为训练集的每个范例所取值。

明显的是,使用相同前体化学品的训练范例都集中在地图的相同区域,各区域之间有清晰的界限。对于生成了二氧化锰四种常见的“多晶型”或晶体结构的训练范例,也得到了相同的结果。将两个地图结合起来,显示出具体前体与具体晶体结构之间的关系。“区域是连续的,我们认为这很棒。”研究人员说,“因为没有原因表明这应该是这样。”

变分自动编码也是让研究人员的系统能产生新配方的原因。因为中间层所采用的值坚持了一种概率分布,随机从这种分布中取一个值都可能得到一种可行的配方。“这实际上涉及到机器学习领域目前热门的多种话题。”研究人员表示,“以结构化的事物进行学习,让专家进行解释并交流,产生结构化的复杂数据——我们把上述都结合了起来。”

“‘可合成性’是材料科学中重要概念,但缺乏好的基于物理的描述。”将大数据和人工智能技术用于材料科学研究的美国公司Citrine Informatics创始人暨首席科学家指出,“因此,预期材料合成方面的难以理解多年来一直阻碍了新材料的计算平台发展。研究人员在这项研究中采用了数据驱动的新颖方法来描绘材料合成,为使我们在计算方面确定有令人激动的特性且能在实验室中实际合成的材料作出了重要贡献。”

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180205G0S21Y00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券