如何在智能信息化时代加速材料科学的研发与创新

1.简介

先进的材料的研发和使用越来越多地影响着人们生活的方方面面,包括能源生产,电力电子,交通,航空航天等关键部件都取决于高端材料的研发与制备。

众所周知,传统的实验和计算建模需要消耗大量的时间和资源,并受到实验条件和理论基础的限制。重复的实验和理论表征通常是耗时且低效的,重大进展往往需要依靠直觉甚至意外。同时,新材料的研发周期非常长,从初始研究到首次使用通常需要大约10到20年。如图1所示,新材料研究包括七个不连续的阶段,即发现、发展、资源优化、系统设计和集成、认证、制造和部署。不同阶段的研发往往由不同的机构甚至不同工程或科学团队进行。尽管一支经验丰富的团队可能参与研发过程的每个阶段,但这些团队很少能直接获得研发早期与市场化后期这一过程之间的反馈,而这种反馈通常恰恰可能加速整个研发的进程。

图1 传统研发新材料的模式

计算模拟和实验是在材料科学领域广泛采用的两种常规方法。然而,由于实验条件和理论基础的固有局限性,这两种方法很难加速材料发现和设计。一般而言,实验测量通常包括微观结构和性质分析、性质测量以及合成实验等。尽管实验测量通常需要在很长一段时间内以低效的方式进行,但也是一种简单直观的材料研究方法。此外,实验测量法对设备、实验环境和研究人员的专业知识提出了很高的要求。另一方面,计算模拟从基于密度泛函理论的电子结构计算、分子动力学、蒙特卡罗技术和相场法到连续谱宏观方法出发,是一种利用计算机程序并使用现有理论进行分析的方法。由计算指导的材料设计有望减少发现新材料和材料开发所需要的时间和成本。与实验测量相比,计算模拟需要的时间更少,并且有利于人为精准地控制实验中的相关变量。然而,计算模拟也存在诸多挑战。例如:1、计算模拟的准确性很大程度上取决于所涉及材料的微观结构; 2、计算模拟需要高性能计算设备;3、计算模拟程序的运行需要依靠大型计算集群; 4、当研究新系统时,不能明确地使用先前的计算结果。因此,现代材料研究通常需要在计算模拟和实验测量紧密结合的基础之上进行,这样才能对所关注材料的结构和性质以及它们的合成和加工程序的相关性有准确的把握。

2011年,随着“大数据”时代的到来,材料基因组计划(MGI)随之推出,该计划展示了材料科学界目前已经收集的大量的材料相关数据,为材料工程师们提供了对已知材料特性的便利访问。例如,无机晶体结构数据库(ICSD)、超导临界温度数据库(SuperCon)、开放量子材料数据库(OQMD)、剑桥结构数据库、哈佛清洁能源项目(HCEP)、材料项目数据库(MP)、材料共享和材料数据设施。这些公开的通用数据管理和共享平台,可以为加速材料发现和设计提供强大的动力。

随着先进的材料表征技术、数据采集和存储能力的不断发展提高,人们所拥有的数据量越来越庞大。机器学习作为一种查找高维数据模式的有力工具,采用特定算法,的算机可以通过模拟材料属性和相关因素之间的线性或非线性关系来学习经验数据。近年来,机器学习技术和大数据成功地解决了材料特性与复杂物理因素之间关系建模的难题。值得注意的是,机器学习在材料领域当前已经被成功应用。例如,机器学习基于失败实验的相关数据,协助材料工程师筛选出了高效有机发光二极管的新材料,这种研发方案开创了一种材料研发的新模式。

图2 材料基因组计划

在过去的20年中,与材料科学相关的计算机技术一直在稳步地从“技术开发与纯计算研究”转向“以计算结果、机器学习和数据挖掘与计算之间的紧密协作为指导的新材料的发现和设计”。机器学习的优势在于能够找到一条满足合理的实验要求和低错误率的路径,充分利用现有的大量数据来加速材料研究过程,包括努力开发更合适的方法,将传统的实验方法与智能数据分析技术相结合,以提高实验效率并降低错误率。

2. 材料科学中常用的机器学习算法

作为一项科学技术,机器学习源于人类对于人工智能的追求。在20世纪50年代,人们尝试使用各种符号方法来解决机器获取知识的问题,主要是基于大数据和神经网络。随后,提出了几种基于统计学习理论(SLT)的方法,如支持向量机(SVM)和决策树(DTs)。目前,一些新的机器方法,如大数据分析的深度学习,已引起学术界和工业界的关注。机器学习是一种自动化分析模型构建的方法,使用迭代算法学习数据。

图3材料学中常用到的机器学习算法

机器学习在高维度数据的分类,拟合以及其他的相关任务中表现出良好的适用性。为了能从大量数据中提取知识并获得洞察力,机器学习能够从以前的计算中学习并持续进步,从而能够产生可靠,可重复的决策和结果,因此在许多领域发挥了重要作用,尤其是语音识别,图像识别,生物信息学,信息安全和自然语言处理(NLP)。,目前,我们的许多日常活动都是由机器学习算法来提供支持,诸如欺诈监测,网络搜索,情绪分析,信用评价等。

机器学习在材料科学中的开创性应用可以追溯到20世纪90年代,当时主要是采用符号方法和人工神经网络(ANNs)等机器学习方法来预测陶瓷基复合材料中纤维/基体界面的腐蚀行为,以及拉伸强度等参数。随后,机器学习已被用于解决材料科学中的各种主题,例如新材料发现和材料特性预测。

通常,在使用机器学习来解决材料科学中的给定问题时,应该构建机器学习系统。这种机器学习系统的一般范例如下:

目标 + 样本 + 算法 = 模型

在这里,最终目标代表给定问题,通常以目标函数的形式表达。

选择合适的机器学习算法是构建机器学习系统的关键步骤,因为它极大地影响了预测精度和泛化能力。每种算法都有自己的应用范围,因此,没有适用于所有问题的算法。如图4所示,材料科学中常用的机器学习算法可以分为四类:概率估计、回归、聚类和分类。具体而言,概率估计算法主要用于新材料发现,而回归、聚类和分类算法用于宏观和微观层面的材料特性预测。此外,机器学习方法通常与各种智能优化算法相结合,例如GA,SAA或PSO算法,主要用于优化模型参数。此外,这些优化算法也可用于执行其他困难的优化任务,例如空间配置和材料属性的优化。

图4 材料科学中常用的机器学习算法的四大分类

3.机器学习在材料科学上主要应用

寻找性能良好的新材料是材料科学的永恒主题。当前通过实验和计算筛选来发现新材料主要涉及元素替换和结构转换。两种方法也可能需要大量的计算或实验,并且通常在“穷举搜索”进行了错误的方向发展,这耗费了相当多的时间和资源。考虑到这一事实和机器学习的优势,如果提出了一种将机器学习与计算模拟相结合的完全自适应方法,用于新材料“计算机模拟”的评估和筛选,就能够为新的材料和更好的材料提供建议。

图5 机器学习在材料科学上的主要应用

图6 机器学习在材料研发领域的通常过程

图7显示了发现新材料时机器学习的一般过程。用于发现新材料的机器学习系统包括两个部分,即学习系统和预测系统。学习系统执行数据清理,特征选择以及模型训练和测试的操作。预测系统应用从学习系统获得的模型用于组件和结构预测。通常通过建议和测试方法“预测”新材料:预测系统通过构图推荐和结构推荐来选择候选结构,并且使用DFT计算来比较它们的相对稳定性。

图7 机器学习用来发现新材料的一般过程

材料晶体结构的预测和表征构成了形成任何合理材料设计基础的关键问题。通过晶体结构预测,可以避免一些不必要的结构实验,这将大大减少DFT计算和计算资源的消耗,同时也有助于发现新的材料。在化学反应之后预测晶体结构甚至更具挑战性,因为它需要整个反应的精确势能面。即使对于简单的结晶,第一原理晶体结构预测也是困难的,因为需要使用高水平量子化学方法来考虑组合巨大的组件排列。相比之下,晶体结构预测的研究在20世纪80年代之前基本没有受到关注。在过去的10年中,机器学习已被用于晶体结构预测。2003年,Curtarolo等人将启发式规则转移到一个大型数据库中用来计算信息,并通过创造性地结合机器学习与量子力学计算成功预测二元合金的晶体结构。然而,这种机器学习方法的缺点是它只预测数据库中存在的晶体结构而不是新颖的结构。通过使用电负性,原子大小和原子位置点来描述晶体结构,Ceder等人通过主成分回归和贝叶斯概率将电负性和原子尺寸与晶体结构联系起来,研究结构预测问题,从而深入了解支配结构预测的物理机制。从计算或实验数据的知识提取的角度来看,Fischer等人构建了一个基于信息学的结构预测以及结构建议模型即数据挖掘结构预测器(DMSP),它严格地挖掘实验数据中包含的相关性,并使用它们有效地将量子力学技术引向稳定的晶体结构。Rafael等人针对有机发光二极管(OLED)的新型发光层进行了研究。采用机器学习方法筛选有效的OLED分子,其中多任务神经网络被用作训练算法,并且使用扩展连接指纹(ECFP)将每个分子转换成固定维向量。从400,000个候选分子中,他们通过机器学习预筛选和协作决策确定了2500个有前途的新型OLED分子。实现了出色的预测能力,导致设备报告效率超过22%。Sendek等人使用LR模型筛选固体锂离子导体材料。通过在MP数据库中筛选满足特定要求的材料,他们将候选材料的数量从12831减少到317,减少了92.2%。然后,他们应用LR开发离子电导率分类模型进行进一步筛选,最终获得了21种最有希望的材料,相当于总体减少了99.8%。

根据之前的研究,绝大多数未能发表的“黑暗”(失败)化学反应都存在于实验室笔记本中。然而,这些反应同样包含有用的信息,它们也可能对新材料的发现有用。Raccuglia等充分利用了失败的反应数据,并展示了一种替代方法,使用SVM衍生的DT算法训练反应数据来预测模板化钒亚硒酸盐结晶的反应结果。该方法优于传统的人类策略,成功地预测了新的有机模板化无机产物形成的条件,成功率为89%。

组件预测

组件预测是发现新材料的另一种方式。简而言之,必须决定哪种化学成分可能形成化合物。机器学习在组件预测中比在晶体结构预测中更广泛地应用。经验或半经验方法的瓶颈在于组件的搜索空间非常有限,并且此类搜索需要许多验证计算和实验,这可能严重影响新材料发现进度。目前,基于机器学习的组件预测的研究可以分为两大类:1)来自给定结构的元素池的元素组合的推荐和2)用于发现新化合物的离子取代。

4. 机器学习的其他应用场景

机器学习已应用于材料特性预测和新材料发现,取得了许多显着成果。此外,它还用于解决涉及大量计算和实验的与材料科学相关的其他问题。请注意,其中一些问题根本无法通过传统方法解决。

流程优化

工艺优化主要是指材料合成中工艺参数的设计。在以往的生产实践中,主要通过理论分析和经验积累制定材料加工程序。模糊神经网络(FNNs)是一种机器学习方法,它将神经网络的优秀学习能力与模糊推理相结合,推导出模糊系统的初始规则。 使用这些模型,可以快速选择用于实现所需生产过程中的最佳工艺参数。

寻找密度函数

目前,每年有超过10000篇论文报告使用Kohn-Sham(KS)DFT获得的电子结构问题的解决方案。所有这些都将交换相关(XC)能量近似为电子自旋密度的函数。结果的质量关键取决于这些密度函数近似。例如,对于强相关系统,目前的函数近似通常会失败,使得该方法对于一些最有趣的问题无用。最近,通过定义将机器学习应用于DFT问题所需的关键技术概念,Snyder等人采用机器学习来解决原型密度泛函问题:非相互作用的无旋转费米子被限制在一维盒子中,受到平滑的潜力。在近似该系统的动能(KE)时达到的精度,测试密度低于1千卡/摩尔时的平均绝对误差,与训练时密度低于100密度的训练组相似,远远超出任何现有近似值的能力。而且,甚至足以产生高度准确的自洽密度。这种机器学习近似(MLA)方法使用更多输入来实现化学精确度,但对基础物理学的了解要少得多。

电池监测

电池监控是指在运行期间连续确定电池的状态。在电池管理系统(BMS)中这是一项具有挑战性的任务,因为电池的状态受到各种内部和外部条件的影响,并且这些条件与电池状态之间的关系是非线性的并且在电池的寿命期间发生变化。阻抗谱、电压脉冲响应和库仑计数是用于电池监测的三种主要传统方法,所有这些方法都有相同的缺点:每种方法仅适用于某种类型的电池,仅用于估算电荷状态(SoC)。机器学习提供了一种预测电池参数的优越方法,因为它具有通过构建训练模型来捕获电池状态和相关因素之间的关系的优势。目前,科研人员已经付出了巨大的努力来使用机器学习方法来实时监测各种电池状态参数,例如SoC,容量,阻抗参数,可用功率,健康状态(SoH)和剩余使用寿命(RUL)等参数。

5.机器学习所面对的问题与解决对策

样本构建

样本是原始数据的子集,以某种规定的方式被选择用于研究。在机器学习的上下文中,术语样本通常包括训练数据和测试数据。目前,与样本构建相关的问题可以主要分为三种类型:样本数据的来源、特征向量的构建和样本大小的确定。

材料科学中的样本数据通常来自计算模拟和实验测量,由不同的研究机构或学校收集,缺乏集中管理系统。材料数据基础设施的开发已经缓解了这个问题,尽管每个数据库是分开的而不是以数据格式统一,这仍然限制了机器学习的适用性。

特征向量在很大程度上决定了模型预测的准确性,因此至关重要。理想情况下,特征向量应为提取主要结构和化学趋势提供简单的物理基础,从而能够快速预测新的材料化学。材料研究中最常用的特征向量主要包括组成,结构,电子密度和库仑矩阵。由于每个特征向量都用于特定应用,因此不存在对材料研究中的所有应用都有效的统一特征向量。

样本量的确定也是样本构建过程中的一个关键因素,与机器学习中的维数减少有关。样本量确定样本数据是否包含有关样本的内在规律的隐含信息,这很大程度上取决于研究项目和所选择的机器学习方法。鉴于一些参数很少且复杂度较低的方法,例如SVM方法,当样本量较小时可以很好地执行,人工神经网络等复杂模型也可以实现高预测精度。质量样本数据,无论样本大小。

可理解性

目前,大多数机器学习模型被视为“黑匣子”,这意味着这种模型提取的知识难以理解。例如,当使用SVM模型来解决分类或回归问题时,通过训练获得的最佳分类平面和/或拟合曲线的参数是不可见的并且隐藏在模型中。知识表示的可懂度是评估学习算法的重要指标之一。在大多数领域,机器学习模型应该是可理解的,因为它往往被视为具有可理解模式和规则的模型。机器学习在材料研究中的应用同样需要具有良好可理解性的模型。在应用机器学习来预测材料行为的早期阶段,使用具有良好可懂度的符号机器学习方法。然而,随着统计学习方法的发展,出现了可懂度差的问题。因此,如何将“黑匣子”变成“白盒子”并提高模型的可懂度的问题目前是一个需要立即解决的问题。解决此类问题的最常用方法如下:1)尝试开发更易理解的算法并避免使用可懂度差的算法。杨等人提出了一种研究人工神经网络解释能力的方法,从而成功克服了“黑匣子”问题。2)从难以理解的算法的结果中提取知识。

可用性

可用性是使用机器学习方法解决实际问题的复杂程度。在材料科学中应用机器学习的复杂性体现在两个方面。1)机器学习过程很复杂,没有专业知识和指导就无法完成。例如,当使用机器学习进行材料属性预测时,应该应用降维和相关分析来提高模型的预测精度。报道了一项关于晶体结构预测的研究,其中使用PCA来降低由于样品的高维度导致的问题的高维度,这有助于提高预测准确性。使用条件属性相关分析来解释有机聚合物材料的性质的预测结果。2)参数的确定也是一项复杂的任务。由于机器学习方法对这些参数和内核函数非常敏感,因此参数确定是机器学习过程中的关键步骤。材料科学中使用的机器学习方法的参数主要通过手动调整或基于经验来确定。此外,采用一些优化算法来优化这些参数。

学习效率

机器学习的速度与其实际应用直接相关。虽然在模型训练和测试中总是追求高速,但是不可能同时实现两者。例如,KNN方法训练速度高但测试速度低,而神经网络模型训练速度低但测试速度高。目前,学习效率问题在材料科学的机器学习应用中并不是很重要,因为这些机器学习应用的样本量很小,从几十到几千不等。然而,随着世界各国材料基因组计划的推进,材料科学将进入“大数据”时代,数据量将变得巨大,这将对学习效率带来巨大挑战。因此,如何提高机器学习学习效率的问题也将成为迫切需要解决的问题。为此,我们需要研究在该领域采用高性能计算方法(如并行计算和云计算)的可能性。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181026A0MI0B00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券