近日,厦门大学程俊教授团队、王野教授团队与英国爱丁堡大学Jeff Z. Pan教授团队联合提出了一种结合大语言模型(LLM)与自建催化知识图谱(Cat-KG)的接力催化路径智能推荐方法。相关成果以“Synergizing Knowledge Graph and Large Language Model for Relay Catalysis Pathway Recommendation”为题发表于National Science Review。
该方法通过自动化反应数据收集与结构化处理以构建知识图谱,并引入专家知识设定路径筛选规则,能够在数分钟内输出可靠的多步接力催化路径,从而显著提升催化反应设计的效率与可靠性。该研究成果展现了人工智能与化学催化研究的深度融合,为未来的光催化、电催化等领域拓展提供了新方向。
研究背景
接力催化(Relay catalysis)是一种将多个催化反应有机耦合的策略,可以显著提升合成效率和选择性,减少能耗和原料浪费。然而,要设计出一条合理的接力催化路径并不容易。研究人员不仅需要查阅大量分散的文献,还要对比不同的反应条件,并确保各个步骤之间能够顺利衔接。这个过程往往耗时漫长、依赖经验,且存在较大不确定性。此外,由于反应数据分散在不同来源,缺乏系统整合,研究人员很难快速获得全面、可靠的信息,这使得接力催化路径的设计充满挑战。
研究内容
为解决接力催化路径高效设计这一长期难题,厦门大学程俊教授团队及其合作者提出了一种融合知识图谱(KG)与大语言模型(LLM)的创新方法,用于智能化推荐接力催化路径。
研究团队首先确定了接力催化研究中关心的5大类、29种关键信息(图1),并据此设计了一个数据自动提取与知识图谱自动更新的工作流(图2)。在这一工作流中,大语言模型发挥了核心作用,能够从超过1.5万篇催化领域文献中高效识别并提取反应物、产物、催化剂、反应条件及性能指标等核心数据。基于这些结构化、标准化的信息,研究团队进一步构建了可溯源的催化知识图谱(Cat-KG)。这一图谱不仅整合了分散的文献信息,还能与原始文献实现双向链接,从而确保数据结果的可靠性与透明度。
图1. CatKG包含的催化反应数据结构。涵盖5种核心类别和29种属性,能够全面表述催化的过程。
图2. 催化数据获取与自动化数据清洗的工作流程。(a)展示了从文献中提取和验证结构化数据的过程。(b)展示了在Chem-Brain系统中自动化提取催化反应数据的流程,其中包括利用LLM生成反应概览和反应细节,并在此之后进入数据存储阶段。
在路径推荐部分,研究团队结合基于图的搜索方法与专家设计的化学规则,从CatKG中筛选出理论上合理、实验上可行的多步接力催化路径(图3)。例如,团队特别强调了相邻步骤反应条件的匹配性,避免出现温度、气氛或添加剂不兼容等问题。随后,利用大语言模型将筛选后的路径转化为直观的化学方程式和简明说明,便于科研人员快速理解与评估。
图3. 利用Cat-KG进行接力催化路径查询、打分筛选的流程。(a)展示了Cat-KG的结构,其中候选路径通过特定的知识图谱查询生成。(b)展示了利用评分规则对候选路径进行筛选和优先级排序的过程。
该方法具有高效性与创新性,能够在数秒至数分钟内完成路径推荐,并成功验证了多条与文献报道一致的经典接力催化路线。同时,该方法还发现了20条迄今尚未报道的潜在新路径,为后续实验研究提供了重要的理论参考与探索方向。
重要意义
该工作发展了一种区别于传统“黑箱”式AI推荐的路径推荐方法,具有透明性、可解释性和可溯源性。每条推荐路径均附带支持数据与文献链接,可辅助化学家在实验前进行评估与决策。该系统具备高度的灵活性与可扩展性,既可平滑升级至更先进的大语言模型,也能拓展应用于光催化、电催化等新兴研究场景。研究团队还计划在未来版本中引入专家反馈,不断优化推荐模型。
目前,研究团队构建的Cat-KG已实现催化反应的查询功能,并向公众开放(访问地址:https://ai4ec.ac.cn/apps/chembrain),后续还将陆续开放路径查询等应用。
工作展望
目前,该系统主要针对每个反应步骤进行单独筛选。未来的研究将着重处理步骤之间更复杂的相互作用,例如考虑催化剂之间的耦合效应,考虑实际反应条件下催化剂稳定性,经济性和可操作性等,从而使整个催化过程在真实条件下更加有效。
研究团队简介
程俊团队隶属于厦门大学化学化工学院,研究平台为嘉庚创新实验室AI4EC Lab。更多信息可访问团队网站:
https://www.cheng-group.net
https://ai4ec.ac.cn