首页
学习
活动
专区
圈层
工具
发布

误差远低于传统模型,首尔大学新微调模型助力材料设计

第一时间掌握

新鲜的 AI for Science 资讯

编辑丨&

计算化学和机器学习(ML)的进步使针对需要的有潜力或特殊性质的材料设计与工程成为可能。虽然这类虚拟材料的发现速度正在稳步提升,但实验验证的成功仍然很耗时。

为弥补这一差距,首尔大学(Seoul National University)与美国福特汉姆大学(Fordham University)的合作团队开发了一种新技术,以大型语言模型(LLM)来预测新材料的可合成性并解释此类预测的基础。

这项研究先后发布在《Journal of the American Chemical Society》(2024 年 7 月 11 日)和《Angewandte Chemie International Edition》(2025 年 2 月 13 日)。

《Large Language Models for Inorganic Synthesis Predictions》:

论文链接:https://pubs.acs.org/doi/10.1021/jacs.4c05840

《Explainable Synthesizability Prediction of Inorganic Crystal Polymorphs Using Large Language Models》:

论文链接:https://onlinelibrary.wiley.com/doi/10.1002/anie.202423950

新材料的开发

与传统的基于图形的定制 ML 模型相比,微调的 LLM 和基于 LLM 嵌入的定制 ML 模型显示出良好的性能。此外,微调的 LLM 可以通过简单的提示推断确定可合成性的原因来提供可解释性。

在稍早一点的研究过程中,团队主要展示了如何在仅给定成分信息的情况下使用微调的 LLM 来预测无机合成性和合成前驱体。然而,相同成分的不同结构可能具有截然不同的特性,并且在大多数情况下,目标是合成特定的多晶型物。

最新的研究表明基于目标晶体结构的文本描述的微调 LLM 可以提供与最新的定制图神经网络 ML 模型相当的可合成性预测性能,再通过在 LLM 衍生的晶体结构描述表示上训练神经网络模型,可以在性能上得到更好的提升。

图 1:利用 LLM 进行基于结构的一般合成性预测及其解释。(图源:论文)

可合成性预测

现有的预测方法仅限于评估材料的热力学稳定性,导致预测精度低,预测与实际实验合成成功率之间存在显著差异。

为了保证实验数据的稳定性,团队遵循先前的工作策略,为一般的合成能力预测任务微调了 OpenAI GPT-4o-mini 模型。他们设计了两种微调模型:StructGPT提供化学计量公式信息和结构描述,StoiGPT仅包含化学计量信息,不包含结构描述。

图 2:一般合成能力预测的模型性能比较。(图源:论文)

微调模型 StructGPT-FT 的性能优于非微调的 GPT 模型,这表明微调对于合成能力预测任务至关重要。而两种学习分类器方法中,先进行文本转换的PU-GPT 嵌入模型的性能优于 StructGPT-FT 和 PU-CGCNN 模型,GPT 嵌入分别比传统的基于图形的结构表示更有效。

结构灵敏度与热力学稳定性

为了检查对输入结构变化的敏感性,团队在保持测试集的 CIF 结构中随机改变了 1% 和 5% 的分数坐标,随后处理这些突变的 CIF 结构,将其转换为文本描述。

整体文本长度增加,表明结构对称性在突变过程中降低,导致描述更长。对于这些突变的合成可预测性的变动来看,原始结构对 StructGPT-FT 的召回率为 71.0%,对于未标记的数据,预测可合成的比例从 6.2% 下降到 0.2% 和 0.1%。

图 3:晶体结构预测(图源:论文)

而在基于热力学的预测假设里,虽然在亚稳范围(<0.2 eV/atom)中实现了 87.1% 的召回率,在接近稳定范围(<0.05 eV/atom)中实现了 74.4% 的召回率。但它们的精度远低于微调后的模型,对上述的两种情况对比误差在 72% 与 33.3% ,与新模型的 6.1% 无法相比。

图 4:基于热力学的合成预测。(图源:论文)

新模型的进一步发展

与近期普遍使用 LLM 实现材料结构-属性可解释性的工作不同,LLM 通过简单提示获得的解释适用于模型预测,不再需要文献示例。

基于这些解释可以指定与一般合成性测定相关的详细和基本方面。譬如通过对不可合成材料采用这种策略,可以确定导致其低可合成性的因素,并指导化学家修改或优化不可合成的假设结构,使其可合成。

团队的指导教授 Yousung Jung 教授表示,这项研究意义重大,因为它表明 LLM 不仅可以精确预测新材料的可合成性,还可以解释这些预测背后的原因并揭示潜在的化学原理。

「随着基于 LLM 的技术不断发展,它们有望为新型材料设计提供更有效、更直观的方向。」本研究的一作作者 Seongmin Kim 计划后续研究将机器学习和材料科学相结合,以探索新型材料开发的范式转变。

人工智能×[ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OSAxbfooYxBDOmbNy9PWhOzQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券