误差远低于传统模型，首尔大学新微调模型助力材料设计

文章来源：企鹅号 - ScienceAI

第一时间掌握

新鲜的 AI for Science 资讯

编辑丨&

计算化学和机器学习（ML）的进步使针对需要的有潜力或特殊性质的材料设计与工程成为可能。虽然这类虚拟材料的发现速度正在稳步提升，但实验验证的成功仍然很耗时。

为弥补这一差距，首尔大学（Seoul National University）与美国福特汉姆大学（Fordham University）的合作团队开发了一种新技术，以大型语言模型（LLM）来预测新材料的可合成性并解释此类预测的基础。

这项研究先后发布在《Journal of the American Chemical Society》（2024 年 7 月 11 日）和《Angewandte Chemie International Edition》（2025 年 2 月 13 日）。

《Large Language Models for Inorganic Synthesis Predictions》：

论文链接：https://pubs.acs.org/doi/10.1021/jacs.4c05840

《Explainable Synthesizability Prediction of Inorganic Crystal Polymorphs Using Large Language Models》：

论文链接：https://onlinelibrary.wiley.com/doi/10.1002/anie.202423950

新材料的开发

与传统的基于图形的定制 ML 模型相比，微调的 LLM 和基于 LLM 嵌入的定制 ML 模型显示出良好的性能。此外，微调的 LLM 可以通过简单的提示推断确定可合成性的原因来提供可解释性。

在稍早一点的研究过程中，团队主要展示了如何在仅给定成分信息的情况下使用微调的 LLM 来预测无机合成性和合成前驱体。然而，相同成分的不同结构可能具有截然不同的特性，并且在大多数情况下，目标是合成特定的多晶型物。

最新的研究表明基于目标晶体结构的文本描述的微调 LLM 可以提供与最新的定制图神经网络 ML 模型相当的可合成性预测性能，再通过在 LLM 衍生的晶体结构描述表示上训练神经网络模型，可以在性能上得到更好的提升。

图 1：利用 LLM 进行基于结构的一般合成性预测及其解释。（图源：论文）

可合成性预测

现有的预测方法仅限于评估材料的热力学稳定性，导致预测精度低，预测与实际实验合成成功率之间存在显著差异。

为了保证实验数据的稳定性，团队遵循先前的工作策略，为一般的合成能力预测任务微调了 OpenAI GPT-4o-mini 模型。他们设计了两种微调模型：StructGPT提供化学计量公式信息和结构描述，StoiGPT仅包含化学计量信息，不包含结构描述。

图 2：一般合成能力预测的模型性能比较。（图源：论文）

微调模型 StructGPT-FT 的性能优于非微调的 GPT 模型，这表明微调对于合成能力预测任务至关重要。而两种学习分类器方法中，先进行文本转换的PU-GPT 嵌入模型的性能优于 StructGPT-FT 和 PU-CGCNN 模型，GPT 嵌入分别比传统的基于图形的结构表示更有效。

结构灵敏度与热力学稳定性

为了检查对输入结构变化的敏感性，团队在保持测试集的 CIF 结构中随机改变了 1% 和 5% 的分数坐标，随后处理这些突变的 CIF 结构，将其转换为文本描述。

整体文本长度增加，表明结构对称性在突变过程中降低，导致描述更长。对于这些突变的合成可预测性的变动来看，原始结构对 StructGPT-FT 的召回率为 71.0%，对于未标记的数据，预测可合成的比例从 6.2% 下降到 0.2% 和 0.1%。

图 3：晶体结构预测（图源：论文）

而在基于热力学的预测假设里，虽然在亚稳范围（<0.2 eV/atom）中实现了 87.1% 的召回率，在接近稳定范围（<0.05 eV/atom）中实现了 74.4% 的召回率。但它们的精度远低于微调后的模型，对上述的两种情况对比误差在 72% 与 33.3% ，与新模型的 6.1% 无法相比。

图 4：基于热力学的合成预测。（图源：论文）

新模型的进一步发展

与近期普遍使用 LLM 实现材料结构-属性可解释性的工作不同，LLM 通过简单提示获得的解释适用于模型预测，不再需要文献示例。

基于这些解释可以指定与一般合成性测定相关的详细和基本方面。譬如通过对不可合成材料采用这种策略，可以确定导致其低可合成性的因素，并指导化学家修改或优化不可合成的假设结构，使其可合成。

团队的指导教授 Yousung Jung 教授表示，这项研究意义重大，因为它表明 LLM 不仅可以精确预测新材料的可合成性，还可以解释这些预测背后的原因并揭示潜在的化学原理。

「随着基于 LLM 的技术不断发展，它们有望为新型材料设计提供更有效、更直观的方向。」本研究的一作作者 Seongmin Kim 计划后续研究将机器学习和材料科学相结合，以探索新型材料开发的范式转变。

人工智能×[ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

相关快讯