AI系统能帮助合成新材料

麻省理工学院的三位材料科学家及其同事发表的论文中,描述其 AI系统可通过科学论文和提取“食谱”合成特定类型的材料。

2017年11月,美国麻省理工学院的三位材料科学家及其同事发表论文,描述了一种新的人工智能系统,可钻研科学论文并提取“配方”,合成特定类型的材料。

这一工作被看做向为仅理论描述的材料生成配方的系统迈出的第一步。现在,在《计算材料学》(Computational Materials)期刊发表的一篇论文中,这三位材料科学家联合麻省理工学院电机工程与计算机科学系(EECS)的一位同事将这项工作继续往前推进,提出了一种新的人工智能系统,可以识别与配方一致的更高水平特征。例如,该新系统能确定材料配方中所用的“前体”化学物与得到产品的晶体结构之间的关系。后来发现,在文献中已记录了相同的关系。

该系统还依赖于提供了产生原始配方自然机制的统计学方法。在论文中,研究人员利用该机制为已知材料提出了不同的配方,且这些建议配方与真正的配方一致。

与过去10年很多表现颇佳的人工智能系统一样,麻省理工学院研究人员的这个新系统是所谓的神经网络,通过分析大量的训练集来学习执行计算任务。传统而言,利用神经网络生成材料配方的努力要解决两大问题,研究人员将其描述为稀疏与稀少。材料的配方可被表示成矢量,通常是一长串数字。每个数字代表着配方的一个特征,例如某种化学品的浓度、溶解它的溶剂、或者发生反应的温度。

由于任何制定的配方都只会用到文献中描述的各类化学品和溶剂的其中几种,所以大多数数字为零。这就是研究人员所谓的“稀疏”。类似地,要学习改变反应参数——例如化学浓度和温度——如何会影响最终产品,理想情况下系统会接受大量例子的训练,在这些例子中参数发生了改变。但是,对于有些材料——尤其是较新的材料,文献可能只含有少量的配方。这就是稀少。“人们认为有了机器学习,我们就需要大量数据,如果数据很稀疏,我们就需要更多的数据。”研究人员说,“如果我们尝试专注于很具体的系统,我们不得不用到高维数据,但这种数据我们没有很多,这种情况下,我们还能不能用这些神经机器学习技术呢?”

神经网络一般按层排布,每一层都包含了数千个简单处理单元,即节点。每个节点都与上下层的数个节点相连。数据输入底层,后者操作数据并将其传送到下一层,然后这层又操作数据并将其传送到下一层,以此类推。在训练中,节点之间的连接不断地调整,直至最后一层的输出与某些计算的结果大体一致。

稀疏的高维数据存在的问题是,对于任何指定的训练示例,底层的大多数节点没有接收数据。这会需要一个相当大的训练集才能保证整个网络有足够的数据来学习进行可靠的归纳。

麻省理工学院研究人员的网络旨在将输入矢量精炼成更小的矢量,让其中所有的数据对于每个输入都有意义。为了实现这个目标,该网络有一个节点很少的中间层,在有些实验中只有2个节点。

训练的目的很简单,对网络进行配置,使得它的输出与输入尽可能相近。如果训练成功,中间层的这些少数节点必须能代表输入矢量中包含的绝大部分信息,但结构更精简。这种系统称为“自动编码器”,它的输出努力与输入相匹配。自动编码补偿了稀疏,但是要处理稀少,研究人员不仅用生产具体材料的配方来训练网络,还用生产很相似材料的配方进行训练。他们利用了三种相似性,其中一种旨在保留晶体结构的前提下将材料之间的不同之处降至最低,例如用一个原子替代另一个原子。在训练中,网络提供示例配方的权重根据其的相似性分数而有所不同。

事实上,研究人员的网络不仅仅是自动编码器,而是“变分自动编码器”。这意味着,在训练中对该网络的评价不仅仅取决于其输出与输入的匹配性有多高,还取决于中间层得到的值与统计学模型的一致性有多高,例如我们熟悉的钟形曲线或正态分布。换言之,在整个训练集中,中间层得到的值应该围绕着中间值聚集,然后按照有规律的速率向四周逐渐减少。研究人员利用二氧化锰及相关化合物配方的两节点中间层训练变分自动编码器后,构建了二维地图描述两个中间节点为训练集的每个范例所取值。

明显的是,使用相同前体化学品的训练范例都集中在地图的相同区域,各区域之间有清晰的界限。对于生成了二氧化锰四种常见的“多晶型”或晶体结构的训练范例,也得到了相同的结果。将两个地图结合起来,显示出具体前体与具体晶体结构之间的关系。“区域是连续的,我们认为这很棒。”研究人员说,“因为没有原因表明这应该是这样。”

变分自动编码也是让研究人员的系统能产生新配方的原因。因为中间层所采用的值坚持了一种概率分布,随机从这种分布中取一个值都可能得到一种可行的配方。“这实际上涉及到机器学习领域目前热门的多种话题。”研究人员表示,“以结构化的事物进行学习,让专家进行解释并交流,产生结构化的复杂数据——我们把上述都结合了起来。”

“‘可合成性’是材料科学中重要概念,但缺乏好的基于物理的描述。”将大数据和人工智能技术用于材料科学研究的美国公司Citrine Informatics创始人暨首席科学家指出,“因此,预期材料合成方面的难以理解多年来一直阻碍了新材料的计算平台发展。研究人员在这项研究中采用了数据驱动的新颖方法来描绘材料合成,为使我们在计算方面确定有令人激动的特性且能在实验室中实际合成的材料作出了重要贡献。”

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2018-02-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

自然语言的理解和连续表达 | 微软演讲PPT终章

微软研究院在IJCAI2016的Tutorial上讲述了自己将深度学习、深度神经网络应用于不同场景的情况,之前第二部分提到了深度学习在统计机器翻译和会话中的应用...

34660
来自专栏新智元

【AI计算的新摩尔定律】3.5个月翻一倍,6年增长30万倍

24850
来自专栏腾讯大数据的专栏

效果广告点击率预估实践:深度学习

1. 引言 深度学习可以说是目前机器学习和人工智能领域最热的词汇了,已经热了数年,而且有望继续热下去。深度学习技术自横空出世以来,在多个应用领域刷新了历史记录,...

33580
来自专栏机器之心

学界 | Yoshua Bengio等人提出MILABOT:强化学习聊天机器人

选自arXiv 作者:Iulian V. Serban等 机器之心编译 参与:路雪、李泽南 The Alexa Prize 是亚马逊在对话人工智能领域中发起的一...

30690
来自专栏数据科学与人工智能

【学库】用Python做深度学习

若是你对深度学习只有比较浅的认识,想知道深度学习是什么?深度学习的来龙去脉?为什么会出现深度学习这个说法和技术?作者在第一章做了回答。

23020
来自专栏机器之心

学界 | FAIR等机构联合提出IntPhys:你的智能系统的物理知识,比得上婴儿吗?

选自arXiv 机器之心编译 参与:Nurhachu Null、刘晓坤 婴儿和许多动物对物体的相互作用有直观理解,并能逐步掌握物体恒常性、因果关系、重力、形状不...

28440
来自专栏数据科学与人工智能

【知识】2017年数据科学Top12的Python库

Python深受数据科学家和数据工程师的喜爱。 ? 本文总结2017年数据科学的Top12的Python库。 核心库 1 numpy 它是最基础库,是众多Py...

37170
来自专栏新智元

【干货】吴恩达博士论文:用增强学习做无人机

【新智元导读】吴恩达2003年申请加州大学伯克利分校计算机科学博士的毕业论文。该论文在肯定了增强学习取得的进展的基础上,就“回报函数塑造”(shaping re...

64580
来自专栏机器学习算法工程师

重磅!一文彻底读懂智能对话系统!当前研究综述和未来趋势

作者:蒙 康 编辑:王抒伟 笔者在最近的研究中发现了一篇非常好的有关对话系统的论文,《A Survey on Dialogue Systems:Recent...

1.2K60
来自专栏AI科技评论

学界 | 全景照片不怕歪!Facebook 用神经网络矫正扭曲的地平线

AI科技评论按:最近微博上的全景照片很火呀,相比各位都已经在自己的iPhone或者iPad上品鉴了多家IT公司的办公室、游玩了多个旅游胜地、享受了被小猫小狗环绕...

40370

扫码关注云+社区

领取腾讯云代金券