麻省理工学院通过新型人工智能系统用电脑可以合成新材料

即使在缺少试验数据的情况下,设备学习系统也可以在材料“配方”中找到相应的模式。

上个月,麻省理工学院的三位材料科学家及其同事发表了一篇论文,讲述了一种新型人工智能系统,可以通过科学研究论文搜寻并提取用于生产特定类型材料的“配方”。

这项工作被设想成朝着人工智能系统迈出的第一步,这种系统可以为只在理论上存在的材料提供制作配方。目前,在《npjComputational Materials》杂志上的一篇论文中,麻省理工学院电气工程与计算机科学系(EECS)的三位材料科学家与他们的同事一起朝着这个研究方向迈出了重要一步,新型人工智能系统可以识别出各个配方中更高级别的相容模式。

例如,新型智能系统能够识别材料配方中使用的“先驱”化学品和晶体产物结构之间的相关性。研究结果证明,这种相关性在文献中也有记载。

该智能系统还依赖于一种自然机制提供生成原始材料配方的统计学方法。在论文中,研究人员使用这种自然机制来提供已广为人知的材料的替代配方,并且建议与真正的材料配方一致。

这篇新闻的主要作者是材料科学与工程专业的研究生爱德华·金(Edward Kim)。这位资深作者是他的顾问Elsa Olivetti,他是美国材料科学与工程学院(DMSE)的大西洋Richfield能源研究助理教授。他们由来自DMSE的博士后Kevin Huang和X-Window联盟的职业发展助理教授Stefanie Jegelka共同参与。

稀疏性和稀缺性

与过去10年的许多最佳的人工智能系统一样,麻省理工学院的研究人员的新型智能系统是一种所谓的神经网络,通过分析大量试验数据来学习并完成计算任务。传统上,使用神经网络系统来尝试生成材料遇到了两个问题,研究人员将其描述为稀疏性和稀缺性。

任何材料的配方都可以表示为一个向量,它本质上是一串长长的数字。每个数字表示配方的一个特征,例如特定化学品的浓度,被溶解的溶剂含量或发生反应的温度。

由于任何给定的配方将只使用文献中描述的许多化学物质和溶剂中的一些,所以这些数字中的大部分将是零。这就是研究人员所说的“稀疏性”。

同样,要了解如何修改反应参数(如化学浓度和温度)可能会影响最终产品,理想情况下智能系统将在大量实例中对这些参数进行整理。但是对于一些材料,特别是新材料,文献可能只包含少数几个配方。这就是所说到的稀缺性。

Kim说:“人们认为设备学习需要大量的数据,如果数据稀疏,就需要更多的数据。”“当你试图专注于一种非常特殊的系统时,你不得不使用高维数据,但却没有太多的数据,你还能使用这些神经设备学习技术吗?”

稀疏并且高维数据的问题在于,对于任何给定的构建示例,基底的大多数节点都不会接收数据。为了确保整个神经网络能够看到足够多的数据来进行可靠的归纳,需要大量的练习。

人为的瓶颈

麻省理工学院研究人员的神经网络系统目的是将输入的向量输入到更小的向量中,所有的数字对于每个输入都是有意义的。为此,这种网络有一个中间层,只有几个节点——在一些实验中只有两个节点。

构建的目的只是为了配置所谓的神经网络,使其输出尽可能接近输入。如果练习是成功的,那么中间层中的少数节点必须以某种方式表示输入向量中包含的大部分信息,但要以压缩更多的形式表示。这样的系统,在输出尝试匹配输入时,被称为“自动编码器”。

在试验过程中,这种神经网络给出的实例配方权重会根据它们的相似度得分而发生变化。

可行性

事实上,研究人员构建的神经网络系统不仅仅是一个自动编码器,还是所谓的变分自动编码器。这意味着,在试验过程中,神经网络不仅要评估其输出与输入的匹配程度,还要评估中间层与某些统计模型(比如熟悉的钟形曲线或正态分布)的值之间的关系。也就是说,在整个试验过程中,中间层所取的值应该围绕一个中心值,然后在所有方向上以固定的速度逐渐减少。

在试验过程中有一个两节点中间层的变分型自动编码器,在配方中加入二氧化锰和相关化合物后,研究人员构建了一个二维图,描绘了训练集中两个中间节点的值。

值得注意的是,使用相同前体化学物质的构建样本,在图中的相同区域之间有清晰的边界。同样的例子也证明了在二氧化锰的常见的“多形性”或晶体结构中,有四种是这样的。这两个映射结合了特定前体和特定晶体结构之间的相关性。

“我们认为这些区域是连续的,这需要慎重,”Olivetti说,“因为没有理由认为这一定就是真的。”

变分的自动编码也使得研究人员构造的神经系统能够产生新型配方。由于中间层的值遵循概率分布,因此随机选取一个值就可能产生一个合理的配方。

杰格尔卡说:“这实际上涉及到目前人们对设备学习非常感兴趣的各种话题。通过对结构化对象的学习,可以与专家进行协商,并生成结构化的复杂数据——我们将所有这些数据都集成在一起。”

Citrine Informatics公司创始人兼首席科学家Bryce Meredig说:“‘综合性能’是典型的概念,同时,它是材料科学的核心,但缺乏很好的物理定义。”他是一家提供大数据和人工智能技术的公司,并可以承担材料科学的研究工作。“因此,新型材料的电脑屏幕已经被无法进行预测材料的合成困扰了很多年。”Olivetti和他的同事们采用了一种依靠数据驱动的新型方法来映射材料的合成,并为我们不仅能够在计算机上识别具有令人兴奋的特性,而且可以对实验室中实际制造的材料做出重要的贡献。

这项科学研究得到了美国国家科学基金会、加拿大自然科学与工程研究委员会、美国海军研究办公室、麻省理工学院能源计划以及美国能源部的基础能源科学项目的支持。

原文来自news.mit,原文题目为Can computers help us synthesize new materials?由材料科技在线汇总整理。

本文来自企鹅号 - 材料科技在线媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏DT数据侠

从0到1:关于机器学习,知道这些就够了

到底什么是机器学习?机器学习在商业领域如何应用?和大数据、统计学又有什么关系?DT君邀请到美国著名大数据教育机构、全美最佳大数据训练营“纽约数据科学学院”首席数...

910
来自专栏数据科学与人工智能

【数据挖掘】系统如何分辨出垃圾邮件? 数据挖掘算法与现实生活中的应用案例

相对于武汉,北京的秋来的真是早,九月初的傍晚,就能够感觉到丝丝丝丝丝丝的凉意。 最近两件事挺有感觉的。 看某发布会,设计师李剑叶的话挺让人感动的。“**的设计是...

3648
来自专栏计算机视觉战队

目标检测也就是这么简单

今天其实是一个不凡的日子,因为今天是属于我们的“23”!这个数字也是我喜欢的幸运数字,所以今天心情犹如窗外温柔秋风和温暖阳光化学反应的味道,带着美美的心情来开展...

3455
来自专栏AI科技评论

解惑 | Yann LeCun答深度学习现存的各类疑问,你是否想知道答案?

联合编译:陈圳,高斐,章敏 深度学习的局限性表现在哪些方面? 深度学习的一些“典型”形式包括各种前馈模块(卷积网络)和递归网络(有时以记忆单元,如LSTM或M...

3537
来自专栏DT数据侠

哪些苹果用户还会购买下一代产品?让机器学习带你精准定位

人工智能是当前社会的显学之一,但如果没有了机器学习和算法的支撑,人工智能就无从谈起。到底什么是机器学习?机器学习跟统计学又有何关系?在1月11日的数据侠线上实验...

910
来自专栏大数据挖掘DT机器学习

数据挖掘算法与现实生活中的应用案例

“如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手...

4326
来自专栏AI科技评论

学界 | 五年过去,Hinton的《神经网络和机器学习》还是最好的机器学习课程吗?

AI科技评论按:Hinton的深度学习课程早在2012年上线,对于这门课程,有学者认为它太过艰深,不适合初学者上手;也有的学生觉得它受益良多,是值得一学的好课程...

3566
来自专栏AI科技大本营的专栏

Google Brain去年干了太多事,Jeff Dean一篇长文都没回顾完

编译 | AI科技大本营(rgznai100) 参与 | Reason_W 从AutoML、机器学习新算法、底层计算、对抗性攻击、模型应用与底层理解,到开源数据...

3638
来自专栏大数据文摘

注水、占坑、瞎掰:起底机器学习学术圈的那些“伪科学”

一边是今年的NIPS迎来了创纪录的8000多篇投稿,一边是李飞飞、Keras框架的作者François Chollet等大佬摊手承认,机器学习发展已进入瓶颈期。

820
来自专栏人人都是极客

如何加速深度学习?GPU、FPGA还是专用芯片

计算机发展到今天,已经大大改变了我们的生活,我们已经进入了智能化的时代。但要是想实现影视作品中那样充分互动的人工智能与人机互动系统,就不得不提到深度学习。

1041

扫码关注云+社区

领取腾讯云代金券