第一时间掌握
新鲜的 AI for Science 资讯
编辑丨&
计算化学和机器学习(ML)的进步使针对需要的有潜力或特殊性质的材料设计与工程成为可能。虽然这类虚拟材料的发现速度正在稳步提升,但实验验证的成功仍然很耗时。
为弥补这一差距,首尔大学(Seoul National University)与美国福特汉姆大学(Fordham University)的合作团队开发了一种新技术,以大型语言模型(LLM)来预测新材料的可合成性并解释此类预测的基础。
这项研究先后发布在《Journal of the American Chemical Society》(2024 年 7 月 11 日)和《Angewandte Chemie International Edition》(2025 年 2 月 13 日)。
《Large Language Models for Inorganic Synthesis Predictions》:
论文链接:https://pubs.acs.org/doi/10.1021/jacs.4c05840
《Explainable Synthesizability Prediction of Inorganic Crystal Polymorphs Using Large Language Models》:
论文链接:https://onlinelibrary.wiley.com/doi/10.1002/anie.202423950
新材料的开发
与传统的基于图形的定制 ML 模型相比,微调的 LLM 和基于 LLM 嵌入的定制 ML 模型显示出良好的性能。此外,微调的 LLM 可以通过简单的提示推断确定可合成性的原因来提供可解释性。
在稍早一点的研究过程中,团队主要展示了如何在仅给定成分信息的情况下使用微调的 LLM 来预测无机合成性和合成前驱体。然而,相同成分的不同结构可能具有截然不同的特性,并且在大多数情况下,目标是合成特定的多晶型物。
最新的研究表明基于目标晶体结构的文本描述的微调 LLM 可以提供与最新的定制图神经网络 ML 模型相当的可合成性预测性能,再通过在 LLM 衍生的晶体结构描述表示上训练神经网络模型,可以在性能上得到更好的提升。
图 1:利用 LLM 进行基于结构的一般合成性预测及其解释。(图源:论文)
可合成性预测
现有的预测方法仅限于评估材料的热力学稳定性,导致预测精度低,预测与实际实验合成成功率之间存在显著差异。
为了保证实验数据的稳定性,团队遵循先前的工作策略,为一般的合成能力预测任务微调了 OpenAI GPT-4o-mini 模型。他们设计了两种微调模型:StructGPT提供化学计量公式信息和结构描述,StoiGPT仅包含化学计量信息,不包含结构描述。
图 2:一般合成能力预测的模型性能比较。(图源:论文)
微调模型 StructGPT-FT 的性能优于非微调的 GPT 模型,这表明微调对于合成能力预测任务至关重要。而两种学习分类器方法中,先进行文本转换的PU-GPT 嵌入模型的性能优于 StructGPT-FT 和 PU-CGCNN 模型,GPT 嵌入分别比传统的基于图形的结构表示更有效。
结构灵敏度与热力学稳定性
为了检查对输入结构变化的敏感性,团队在保持测试集的 CIF 结构中随机改变了 1% 和 5% 的分数坐标,随后处理这些突变的 CIF 结构,将其转换为文本描述。
整体文本长度增加,表明结构对称性在突变过程中降低,导致描述更长。对于这些突变的合成可预测性的变动来看,原始结构对 StructGPT-FT 的召回率为 71.0%,对于未标记的数据,预测可合成的比例从 6.2% 下降到 0.2% 和 0.1%。
图 3:晶体结构预测(图源:论文)
而在基于热力学的预测假设里,虽然在亚稳范围(<0.2 eV/atom)中实现了 87.1% 的召回率,在接近稳定范围(<0.05 eV/atom)中实现了 74.4% 的召回率。但它们的精度远低于微调后的模型,对上述的两种情况对比误差在 72% 与 33.3% ,与新模型的 6.1% 无法相比。
图 4:基于热力学的合成预测。(图源:论文)
新模型的进一步发展
与近期普遍使用 LLM 实现材料结构-属性可解释性的工作不同,LLM 通过简单提示获得的解释适用于模型预测,不再需要文献示例。
基于这些解释可以指定与一般合成性测定相关的详细和基本方面。譬如通过对不可合成材料采用这种策略,可以确定导致其低可合成性的因素,并指导化学家修改或优化不可合成的假设结构,使其可合成。
团队的指导教授 Yousung Jung 教授表示,这项研究意义重大,因为它表明 LLM 不仅可以精确预测新材料的可合成性,还可以解释这些预测背后的原因并揭示潜在的化学原理。
「随着基于 LLM 的技术不断发展,它们有望为新型材料设计提供更有效、更直观的方向。」本研究的一作作者 Seongmin Kim 计划后续研究将机器学习和材料科学相结合,以探索新型材料开发的范式转变。
人工智能×[ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。