首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习+材料,数据挖掘发JACS!

研究背景

铜基纳米晶体是与新兴绿色技术紧密相关的关键纳米材料,而液体激光烧蚀(LAL)则是一种卓越的合成技术。然而,迄今为止,要在利用LAL提供的广泛纳米材料库中实现特定类型的铜基纳米晶体,一直需要依赖调整合成参数并依靠经验性的产品。意大利帕多瓦大学Amendola团队通过数据挖掘的方式分析铜基纳米晶体的LAL合成文献数据,进而预先确定铜的氧化态以及相关的物理和化学特性。

计算方法

线性回归分析和遗传算法

在线性回归分析中,该研究采用自编码方式对数据库中的(特征,输出)或(超级特征,输出)数据进行对数-对数图(Log = log10)的转换,如S1节和支持信息中的S1图所示,最终得到了(feature',output')或(superfeature',output')数据集。这一数据集用于线性回归,其中该研究提取了每个特征或超特征的决定系数(R2或R平方值)、斜率以及斜率上的标准误差。

遗传算法依赖于三个主要机制:选择、交叉和变异,以进行迭代进化并选择最有前景的特征组合来描述输出。每个群体个体以二进制字符串表示,编码了36个特征的特定子集。该研究使用k倍交叉验证(42,55)来评估每个个体的适应度,这允许该研究合理评估个体在不同数据分区上的性能,提高结果的整体可靠性并确保方法的稳健性。遗传算法的目标是在使用线性回归作为基本模型的同时优化两个关键适应度标准:最大化决定系数(R2)和最小化均方误差(MSE)。

机器学习

在机器学习分析中,该研究使用Python的scikit-learn 1.2.2(77)和XGBoost 1.7.0包来确定最适合非线性回归特征选择的模型,包括XGBoost、Ada Boost、Gradient Boost、随机森林、决策树回归器和套索回归。该研究使用R2来评估各模型的拟合度,同时计算均方误差(MAE)和均方根误差(RMSE)以进一步比较不同模型的性能并验证最适合的模型。原始数据集包含36个特征,输入到六个模型中,以获取默认超参数设置下的R2分数。最终的R2排名为XGBoost > Gradient Boost > Ada Boost > 随机森林 > 决策树 > Lasso回归。基于这个排名,该研究使用基于排列的特征重要性方法来获得前四个模型(XGBoost、Gradient Boost、Ada Boost和随机森林)的36个特征的重要性得分。在此特征排序过程中,应用了基于排列的特征重要性排序方法和鲁棒的基于树的模型,以评估每个输入特征的预测有用性。接下来,该研究使用scikit-learn包中的5倍网格搜索交叉验证方法来优化XGBoost、Ada Boost、Gradient Boost、随机森林、决策树回归器和Lasso回归模型的超参数。贝叶斯优化被用来缓解计算资源的消耗,以及找到最佳超参数组合的挑战,特别是在处理多个超参数时。

最后,该研究采用了多个机器学习模型,包括XGBoost、Ada Boost、Gradient Boost、随机森林、LightGBM和CatBoost,并形成了一个基本集成模型,这些模型在贝叶斯优化下具有出色的性能。该集成模型使用基本模型的性能进行加权平均,以根据不同模型的表现生成最终预测,这个过程通过多种测试和分析组合来执行。

图文导读

机器学习预测结果和合成条件指导

该研究经过模型的筛选,最终使用投票回归器机器学习模型来获取在特定实验室条件下合成具有所需铜氧化态的纳米颗粒的有效指导。在该研究的示例中,典型的液体激光烧蚀(LAL)条件允许该研究确定五个特征(P1:6 × 10^-9秒;P3:50赫兹;P4:0.05焦耳/脉冲;P5:10厘米;P6:180分钟),同时研究其余四个特征对溶剂和溶质的影响。实际上,设置这些特征的通用性(5个特征中的9个特征)有助于简化对于典型LAL实验室条件下合成条件的预测。

最初,该研究对于三种溶质质量分数(P36 = 0.001、0.01和0.1),预测了溶剂分子(P12)和溶质分子(P31)中O + Cl + CN + S的百分比对氧化态的影响,以及对于具有不同原子数的溶剂分子(P11:3和12),如图6A所示。对于小溶剂分子(3个原子),当溶质和溶剂中O + Cl + CN + S的百分比增加超过10-20%(随溶质质量的变化)时,总体趋势显示氧化态接近+1的平衡。

然而,在所有溶质浓度下,实现氧化态+1的范围都非常狭窄,而且随着P36的增加,它们会转向更高的P12值。对于具有12个原子的溶剂分子,情况有所不同,只要溶质的质量分数低于0.01,并且O + Cl + CN + S的百分比不等于0,其氧化态+1的范围非常宽。这与溶剂和溶质中的醇一样。

考虑到原子数(P11)的相关性,该研究对溶质中O + Cl + CN + S含量为3%的情况进行了研究,探讨了它与溶剂分子中O + Cl + CN + S百分比(P12)的关系,同时考虑了三种不同的O + Cl + CN + S含量(P31 = 0.01、50和100)以及两种不同的溶质浓度(P36 = 0.001和0.1),如图6B所示。数据库中的原子数范围从3(代表水)到32(代表癸烷)。对于O + Cl + CN + S(P31 = 0.01)含量可以忽略不计的溶质,当P11增加到5以上时,氧化态1在高O + Cl + CN + S含量(P12)和低原子数(P11 < 5)的情况下变得可能。同样,存在一个紧密区域,其中除小溶剂分子外,在所有情况下都预测氧化态+1(P11 < 5)和相当大的O + Cl + CN + S含量(P12 > 30%),但在存在较高溶质质量分数(P36 = 0.1)和不含氧(P31 = 0.01)的情况下也成立。考虑到一般情况下非极性溶质不能以高浓度溶解在极性溶剂中,这些条件不容易实现。

然而,通过结合图6A和B中的信息,该研究可以推断出在水中的LAL(P11 = 3,P12 = 33%)与醇(P31 = 8–11%)或无氧气体(Ar,P31 = 0%)会预计产生Cu氧化态为+1的纳米颗粒。同样,乙腈(P11 = 6,P12 = 33%)和无氧气体(Ar,P31 = 0%)位于(P11,P12)图中氧化态+1区域的边缘,因此在这些条件下制备的LAL产物中Cu的氧化态也应接近+1。相反,使用富氧溶剂和溶质将导致Cu的氧化态远高于+1,而贫氧溶剂和溶质将使氧化态保持接近0。

Figure 6: (A) 在三种不同的溶质浓度(P36 = 0.001、0.01和0.1)以及两种不同溶剂分子的原子数(P11:3和12)下,预测氧化态的变化,作为溶剂分子(P12)和溶质分子(P31)中的O + Cl + CN + S百分比的函数。(B) 在三种不同的O + Cl + CN + S百分比的溶质(P31 = 0.01、50和100)以及两种溶质浓度(P36 = 0.001和0.1)下,预测氧化态的变化,作为溶剂分子的原子数(P11)和O + Cl + CN + S百分比(P12)的函数。所有预测结果均采用最佳模型(投票回归器),设置参数如上图下方的表格中所示。

因此,该研究进行了一系列LAL实验(请参见图7和表1),覆盖了这些溶剂和溶质参数的各种组合,并寻找不同Cu氧化态的产物。表1中总结的结果与具有R2值为0.90的投票回归机器学习模型的预测非常一致(见图5C中的红色三角形),从而证实了整个过程的可靠性,以及从中获得的物理化学见解的有效性。

Figure 7: 使用图6中描述的设置条件以及不同的溶剂和溶质组合,该研究获得了关于Cu基纳米颗粒的LAL实验数据。(A) 胶体的紫外-可见吸收光谱(UV-vis光谱)。(B) X射线衍射(XRD)分析和Rietveld精修。(C) 透射电子显微镜(TEM)分分析

总结展望

本文分析LAL合成条件数据库可能包含所需信息,以识别与合成相关的关键特征,如图8所示,可以指导实验活动以获得所需的铜产品。然而,文献中没有提供关于哪种数学模型或算法最适合进行此类预测的明确指导。

该研究建立了一个包含36个特征的数据库,最初应用线性回归分析来确认溶剂的重要性(如O + Cl + CN + S的百分比、溶剂分子的原子数和密度)。通过特征组合(称为"超级特征")的方法,得出了一个方程,描述了铜氧化态的主要决定特征,包括电池类型、气体电子亲和力、溶剂分子量、原子数、平均键能、电离势、相对介电常数、亨利常数、表面张力、密度、比热容、溶质平均键能和最小电离势。但是,这些超级特征导致了解释和应用的复杂性,且准确度较低。总之,即使通过遗传算法(GA)的实施,线性回归分析也不足以理解LAL产品的特征和化学之间的相互关系。

因此,该研究采用了机器学习方法,揭示了在不同特定设置下,特别是脉冲能量、合成持续时间、重复率、透镜焦距和脉冲持续时间这些设置特征,溶剂化学成分(原子数和O + Cl + CN + S的百分比)、以及溶质参数(O + Cl + CN + S的百分比和质量分数)之间的意想不到的相关性。最佳的机器学习模型在从特定设置开始识别产生特定氧化态的合成路径方面具有巨大的效能和实用性。在机器学习模型的指导下,进行了新的实验来合成铜的不同氧化态,包括那些挑战性的Cu(I)化合物,这些化合物只能在有限的实验特征范围内获得。

实验结果与机器学习预测相一致,从而确立了三组不同实验条件,能够产生铜氧化态接近1的铜基纳米晶体。这进一步扩展了LAL的多功能性,使其适用于可集成到从电催化到光催化、光伏电池等可持续过程中的铜基纳米晶体。此外,机器学习方法具有普适性,可适用于其他纳米材料,并为理解LAL合成纳米材料的化学途径提供了新的视角。该研究探索了数据挖掘在预先确定纳米材料库中所需化合物的合成参数,以指导胶体激光合成和加工领域的应用前景。

Figure 8:通过液体激光烧蚀(LAL)制备的铜基纳米颗粒中确定铜氧化态的最相关特征摘要,基于线性回归、遗传算法和机器学习分析

文献信息

Data-Driven Predetermination of Cu Oxidation State in Copper Nanoparticles: Application to the Synthesis by Laser Ablation in Liquid, Journal of the American Chemical Society. 2023,DOI: 10.1021/jacs.3c09158

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OmwFy16Dl9gGV6JzwwM8WKAA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券