首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >J. Chem. Theory Comput. | 反应机器学习势函数加速有机金属催化剂过渡态搜索与配体筛选

J. Chem. Theory Comput. | 反应机器学习势函数加速有机金属催化剂过渡态搜索与配体筛选

作者头像
DrugOne
发布2025-10-14 16:19:49
发布2025-10-14 16:19:49
220
举报
文章被收录于专栏:DrugOneDrugOne

在现代化学工业中,均相有机金属催化剂凭借其反应条件温和、高选择性等优势,广泛应用于有机合成和药物研发等领域,对推动绿色化学发展意义重大。在有机金属催化剂配体筛选中,反应势垒是评估催化效率的关键指标,传统计算方法主要结合密度泛函理论(Density Functional Theory, DFT)与过渡态搜索算法来获取反应势垒,虽然准确,但计算时间成本极高,无法满足大规模筛选的需求。半经验量子化学方法(如GFN2-xTB)速度快但精度有限。因此,开发一种能够权衡精度与效率的计算方法,成为该领域迫切的需求。

近日,大连理工大学刘奇磊团队在Journal of Chemical Theory and Computation发表研究,提出一种创新的反应机器学习势函数(Reactive Machine Learning Potential, RMLP)建模框架,成功将有机金属催化反应过渡态优化速度提升超3个数量级(1000倍),同时保持与DFT(ωb97xd/def2svp)相当的精度,为高通量筛选有机金属催化剂配体开辟了新的路径。

研究内容

RMLP整体框架及反应数据生成策略

机器学习势函数方法已在药物化学、材料科学、非均相催化等多个领域展现出了巨大的应用前景。然而,由于有机金属催化反应势能面的复杂性,以及缺乏包含过渡金属和多样配体的高质量反应数据库,均相有机金属催化领域的RMLP应用潜力仍未得到有效发掘。为此,本研究提出了一种RMLP加速有机金属催化剂配体筛选的工作流(如图1所示),主要包括三个步骤:数据库自动化构建、RMLP模型训练、过渡态搜索与反应势垒预测。

图1. 基于RMLP的有机金属催化剂配体筛选框架。(a)有机金属催化数据库生成。(b)基于已建立的数据库训练RMLP模型。(c)结合RMLP模型与过渡态搜索算法以加速过渡态搜索和反应势垒预测。

机器学习势函数模型能够替代DFT方法的理论基础,在于其可学习并充分捕捉局部原子环境。因此,采用高效的数据生成及模型训练策略构建充分学习原子局部化学环境的RMLP模型至关重要。如图2所示,本研究提出了一种高效的数据库生成混合策略。以铑催化乙烯氢化反应为研究案例,首先,利用课题组前期开发的基于骨架的计算机辅助分子设计(Scaffold-based CAMD)方法,自动组装有机金属催化剂骨架与各种基团,高效生成了2073种由SMILES表示的有机金属催化剂磷配体。随后,随机选择其中的1069种有机金属催化剂磷配体(剩下1004种用于筛选任务),利用课题组前期开发的过渡态初猜结构生成算法(GENiniTS-RS),基于预定义的反应模板三维坐标,将1069种有机金属催化剂磷配体SMILES字符串自动快速转化为各配体对应的过渡态初猜结构。最后,利用GFN2-xTB实施内禀反应坐标(Intrinsic Reaction Coordinate, IRC)路径采样和简正模采样(Normal Mode Sampling, NMS),在保证覆盖势能面上反应路径周围构象的同时增强数据多样性。通过以上数据库生成混合策略,为1069种有机金属催化剂磷配体对应的乙烯氢化反应生成了496,690个反应相关构象,并在ωb97xd/def2svp计算精度级别下计算得到其对应的分子能量及原子力作为RMLP模型训练的标签。在构象采样这一数据准备阶段,本研究所提出的混合策略相比完全采用DFT方法,总体计算效率提升超4个数量级(10000倍),显著加速了大规模分子构象数据的生成。如图3所示,通过分析生成的数据集发现,1069种有机金属催化剂在整个化学空间中均匀分布,而结合IRC路径与NMS进一步丰富了构象采样,使化学空间中的分子几何结构分布更为密集。该数据增强策略显著增强了RMLP模型对分子能量与原子力中细微构象变化的敏感度,对提升模型预测能力至关重要。为了进一步降低RMLP模型对训练数据集规模的依赖,本研究引入了委员会查询(Query by Committee, QbC)主动学习策略来筛选关键构象进行DFT标注,从而显著降低构建RMLP模型所需的高精度DFT数据标注成本。经测试,QbC成功将RMLP训练数据量降低近1个数量级(10倍,从496,690降低至62,545),在同等计算硬件下节省约88%的DFT数据标注计算成本(从310小时降至39小时)。与此同时,主动学习训练得到的模型可保持与“满血版”RMLP模型相近的模型性能。

图2. 数据库生成混合策略。(a)乙烯加氢反应及其预先计算的反应位点原子三维坐标。(b)利用Scaffold-based CAMD工具生成包含不同磷配体的SMILES表示的有机金属催化剂。(c)利用GENiniTS-RS生成反应过渡态初猜结构。(d)GFN2-xTB采样分子构象、DFT计算分子能量和原子力。(e)利用主动学习策略筛选数据集。

图3. 数据库分析。(a)使用原子中心对称函数(ACSF)描述符和t-SNE方法,绘制过渡态、沿IRC路径的分子构象和NMS构象映射的化学空间(绿点表示过渡态(TS),蓝点表示沿IRC路径的分子构象,灰点表示NMS构象)。(b)与(a)相同的化学空间,显示主动学习过程中新增数据点的分布(灰点表示完整数据集,绿点表示主动学习训练的初始数据点,红点表示通过主动学习策略新增的数据点)。(c)考虑IRC和NMS构象的原子力分布小提琴图。(d)仅考虑IRC构象的原子力分布小提琴图。

RMLP模型性能及测试结果

研究中采用MACE机器学习势函数架构来训练RMLP模型。如表1所示,对比不同数据生成策略及模型架构后发现,采用IRC+NMS构象增强采样策略,并结合MACE架构训练的RMLP模型(MACE w/ NMS)在测试集上的表现最佳(分子能量MAE = 1.496 kJ·mol-1,原子力MAE = 0.733 kJ·mol-1·Å-1),而基于QbC主动学习策略构建的RMLP模型(AL MACE w/ NMS)相比于完整数据训练只表现出了轻微的性能损失(分子能量MAE = 1.658 kJ·mol-1,原子力MAE = 0.938 kJ·mol-1·Å-1),二者性能均远超无NMS数据增强以及PaiNN架构的消融模型。随后,在训练集未见过的反应上进行IRC反应路径计算与二维势能面刚性扫描(图4),发现基于主动学习策略最终训练得到的AL MACE w/ NMS模型均表现出了对DFT基准的高度近似,并远超半经验GFN2-xTB方法。

表1. 不同模型架构与数据采样策略下的RMLP模型性能对比。

图4. RMLP模型在势能面预测中的表现。(a)不同方法计算的沿IRC路径反应坐标变化的比较。(b)不同方法计算的沿反应坐标的势能面刚性扫描结果的比较。

进一步,本研究对比了不同模型和方法在随机选择的100个外部测试反应上的过渡态结构几何误差与反应势垒预测精度,其中过渡态结构优化与IRC计算均采用Sella算法。如图5所示,AL MACE w/NMS模型性能优异,相较于DFT基准,过渡态结构优化与IRC计算成功率为93%,过渡态结构几何误差RMSE = 0.307 Å,反应势垒预测误差MAE = 0.871 kJ·mol-1,且几乎所有反应的势垒预测结果均满足化学精度范围(±4.185 kJ·mol-1 = ±1 kcal·mol-1 = ±0.043 eV),展现出了极高的预测精度,同时其过渡态结构优化效率相比于DFT提升超3个数量级(1000倍)。在外部kraken商业可获取膦配体库中,筛选出10种低势垒配体,并成功找到反应势垒低于经典的三苯基膦(PPh₃,威尔金森催化剂配体)的膦配体,为新型高效催化剂开发提供候选,展现了所提出的RMLP建模框架用于均相有机金属催化剂配体筛选的可行性和有效性。

图5. RMLP模型在过渡态结构优化与反应势垒预测任务中的表现。(a)MACE w/ NMS模型、AL MACE w/ NMS模型、GFN2-xTB方法、MACE w/o NMS模型和PaiNN w/ NMS模型优化过渡态几何结构的RMSE。(b)以上五种方法预测的反应势垒误差小提琴图。(c)AL MACE w/ NMS模型预测与DFT基准反应势垒的比较(黑色实线表示 y = x,黑色虚线表示化学精度范围)。

为进一步验证所提RMLP建模方法的普适性,本研究选择了过渡态结构更为复杂的钯催化Heck反应的迁移插入步骤进行研究。结果表明,在保持相同NMS采样数量的条件下,RMLP模型的预测性能与反应路径(IRC)周边分子构象空间的分布密切相关。相比于仅使用较少IRC路径数据点训练的模型,基于完整IRC路径数据训练的RMLP模型在测试集上表现出更小的预测波动,并能够更准确地预测未知反应的反应路径与势垒,其势垒预测误差仅为2.22 kJ·mol-1,这一结果凸显出本研究所提出的RMLP建模框架在推广至其他复杂有机金属催化体系方面具有显著潜力。

总结与展望

这项研究通过数据库生成混合策略解决了机器学习势函数领域一直困扰研究者的“高质量数据稀缺”问题,并借助高阶等变机器学习势函数(MACE)架构实现有机金属催化反应势垒的“高精度预测”,结合自动化工作流达成有机金属催化剂配体筛选的“高通量应用”,为均相有机金属催化计算提供了全新研究范式。研究中采用委员会主动学习策略仅依托6万余个高质量数据点,即可从头构建出兼具DFT级精度与千倍提速能力的机器学习势函数,彻底打破了“精度与效率不可兼得”的传统困局,有望加速医药、化工等领域的催化剂研发进程,为绿色化学和可持续制造提供关键技术支撑。未来,将通过预训练-微调技术可进一步提升模型泛化能力与降低新反应体系的训练成本,同时,将温度、溶剂等反应条件纳入模型,可进一步贴近实际工业场景。

参考资料

Kun Tang, Yujing Zhao, Lei Zhang, Jian Du, Qingwei Meng, and Qilei Liu*. Journal of Chemical Theory and Computation. DOI: 10.1021/acs.jctc.5c01047

https://doi.org/10.1021/acs.jctc.5c01047

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档