
DRUGONE
分子激发态的研究在有机化学、化学生物学和材料科学中具有重要意义。理解分子发色团的光物理性质对于设计受自然启发的功能分子至关重要,其应用涵盖光合作用到药物研发。非绝热分子动力学(NAMD)模拟是研究分子和材料光化学的有力工具,但对于复杂分子和环境而言计算需求极其庞大。为应对这些挑战,研究人员引入了机器学习方法。机器学习算法能够分析大规模数据集,并通过识别几何特征与基态及激发态性质之间的关系来加速发现。然而,该领域仍面临挑战,包括获取高精度激发态数据和处理复杂数据的难题。本文综述了机器学习在非绝热分子动力学中的最新进展与最佳实践,重点讨论数据预处理、势能面拟合以及轨迹数据的后处理方法 。

分子激发态的深入理解对有机化学、化学生物学和材料科学具有深远意义。要设计具有自然启发功能的分子(如模拟光合作用和视觉过程),需要理解其在Franck–Condon区及后续光诱导反应中的性质。分子发现的研究甚至可以扩展到材料层面,涉及光捕获分子、催化剂或通过光化学反应发挥作用的药物。除光化学的基础性见解外,这些研究还可能对大气化学、太阳能转化、光响应材料和分子电子学等领域产生广泛影响 。
要理解并预测分子体系的光物理和光化学性质,需要对其势能面(PES)有详细的了解。然而,在多原子分子中,PES具有高维特性,由众多内坐标定义,使其完整表征在计算上难以实现。非绝热分子动力学模拟提供了一种强有力的策略,可通过直接识别光激发后访问的关键几何结构来探索PES。这种方法能够揭示控制激发态过程与反应的结构-性质关系。获得的轨迹数据为识别非辐射衰减通道、评估其效率和确定特征时间尺度提供了依据,从而为理性设计新型发色团、材料和光子器件提供指导 。
尽管NAMD模拟能够解析实时的激发态分子振动和反应路径,但其计算量极大。由于需要在飞秒级时间步长下传播大量轨迹,1皮秒的模拟就可能需要数千次量子化学计算。这种高昂的计算成本限制了NAMD在大分子体系、复杂环境和更长时间尺度下的应用。
为突破这些限制,机器学习被引入到光动力学研究中。ML已成为电子结构理论的有力工具,能够预测包括能量、力、偶极矩甚至光谱特征在内的多种性质。近年来,ML势能在基态动力学中已获得广泛成功,而新的研究正在扩展到多电子态的表示,从而实现激发态模拟。

机器学习势能作为高效替代物,可以在单一电子态或多电子态下模拟PES。通过学习大规模量子化学或实验数据,ML模型能够准确预测能量、力、非绝热耦合以及自旋轨道耦合等关键量。与从头算方法相比,ML的计算成本大幅降低,使得更长时间尺度的激发态过程模拟成为可能。然而,该领域仍面临挑战,包括激发态基准数据的有限性、波函数相位任意性导致的性质不唯一,以及强耦合区域的势能面不连续性。此外,高质量训练数据的生成本身代价高昂。
非绝热分子动力学的基础原理
表面跳跃方法
在激发态分子动力学模拟中,表面跳跃(Surface Hopping, SH)是应用最广泛的方法之一。该方法假设分子在传播过程中主要沿单一势能面演化,但在靠近电子态交叉区域时,存在一定概率“跳跃”到另一条势能面。

量子化学与非绝热耦合
NAMD 模拟依赖于精确的量子化学输入,包括:
传统的多参考量子化学方法(如 CASSCF、MRCI)能提供高精度结果,但计算代价极高,难以用于大规模动力学。TD-DFT 等方法计算效率较高,但在强耦合区域准确性有限。
引入机器学习势能的目标正是利用数据驱动方法替代昂贵的从头算计算,尤其是在轨迹传播中需要重复计算数千次能量和耦合时。
时间尺度与轨迹采样
非绝热过程通常发生在飞秒至皮秒时间尺度。为了捕捉这些超快动力学,模拟必须使用极小的时间步长(通常小于1飞秒)。此外,由于轨迹间存在显著统计差异,需要运行数百甚至数千条轨迹,以获得可靠的宏观性质预测(如量子产率、寿命等)。
这也意味着,单一体系的NAMD模拟就可能需要上百万次量子化学计算,成为主要的计算瓶颈。机器学习方法通过构建近似势能面与耦合项,可以在保证精度的同时显著降低计算成本。
数据生成与预处理
机器学习势能的准确性高度依赖于训练数据的质量与多样性。在非绝热分子动力学中,数据不仅包括几何构型及其基态/激发态能量,还必须包含非绝热耦合、自旋轨道耦合等额外信息。因此,如何生成、筛选与预处理数据是ML驱动NAMD成功的关键。

数据生成策略
采样空间覆盖
激发态过程通常涉及远离平衡构型的几何,因此训练数据必须覆盖:

研究人员通常结合多种方法采样:分子动力学、随机扭转、偏置采样(如metadynamics)、以及主动学习驱动的自适应采样,以确保训练集能够覆盖关键区域。

主动学习
由于从头算计算昂贵,无法在整个势能面均匀采样。主动学习(active learning)通过迭代方式实现:
这一循环能够在有限数据下快速提升模型泛化能力。

数据平衡与冗余消除
激发态动力学中的数据分布往往高度不均衡,例如大量数据集中在基态势能谷底,而锥形交叉等关键区域样本稀少。为避免模型偏向,应:
这样不仅提高了训练效率,也确保模型在重要区域具有足够学习能力。
数据表示与输入特征
分子表示
为了让机器学习模型准确捕捉分子几何与能量的关系,需要合适的分子表示。常见方式包括:
激发态特征
除几何信息外,还需加入特定于激发态的特征:
这些信息对于模型学习非绝热动力学至关重要。
相位问题与数据一致性
在激发态量子化学计算中,波函数相位的任意性可能导致性质(尤其是非绝热耦合)出现不连续性。这会严重干扰机器学习模型的训练。为解决该问题,研究人员提出:
数据预处理与归一化
为了提升训练稳定性,通常需要对数据进行预处理:
这些步骤能显著提升训练效果,并避免模型在高维空间中出现数值不稳定。
激发态机器学习模型的构建与训练
在非绝热分子动力学中,机器学习模型的目标是学习分子几何与激发态性质之间的复杂关系,包括能量、力、非绝热耦合和自旋轨道耦合等。为了实现这一点,需要在分子结构表征、模型选择、多态建模和训练策略上做出合理设计。

分子结构表征
内坐标与全局描述
最早的机器学习势能常采用键长、键角、二面角等内坐标作为输入。这种方式在小分子体系中有效,但难以扩展到大体系或复杂环境。
对称函数与局部环境
神经网络势能的经典做法是使用对称函数(symmetry functions)来捕捉原子局部环境,保证模型在平移、旋转和交换对称下的不变性。这种方法在基态势能学习中已取得成功,并逐渐被扩展到激发态。
图表示与消息传递
近年来,图神经网络(GNN)被广泛应用于分子系统。分子被表示为原子节点和化学键边,消息传递机制允许模型自动学习局部与全局结构特征。对于激发态,GNN能够自然地捕捉电荷转移、激发局域化等效应。
回归模型与训练方法
常用回归架构
多任务学习
同时预测能量、力与非绝热耦合,可以通过共享底层特征、分支输出头的方式实现多任务学习。这种方法提高了数据利用效率,并提升了不同性质之间的一致性。
不确定性感知
在激发态建模中,预测不确定性至关重要。贝叶斯神经网络、深度集成学习和随机投影方法被广泛用于量化不确定性,帮助识别模型在高风险区域的失效。
多态建模
激发态动力学涉及多个电子态的相互作用,因此需要能够同时处理多态的模型:
近年来的趋势是构建多输出模型,能够同时学习多个态及其耦合关系,从而更好地捕捉态间关联。
相位问题与修正
激发态的量子化学计算中,波函数相位的不唯一性会导致性质(特别是非绝热耦合)在不同构型间不连续。这是训练ML模型时的重大难题。
研究人员提出的解决方案包括:
这些方法确保了训练数据的一致性,提高了模型对非绝热过程的描述能力。
量子动力学挑战
即使ML模型能够提供精确的能量和耦合,如何在动力学中传播轨迹依然存在挑战:
因此,开发与ML势能兼容的高效动力学传播方法是该领域的重要研究方向。
可迁移性与泛化能力
在实际应用中,研究人员希望训练好的ML模型能够迁移到:
提升模型的泛化能力可通过以下途径:
NAMD 轨迹的后处理
非绝热分子动力学模拟能够生成大量轨迹数据,这些数据包含能量随时间的演化、电子态跃迁、几何变化等。由于数据量庞大且维度极高,后处理分析对于提取有意义的物理与化学信息至关重要。
降维方法
轨迹数据通常位于高维势能面上,直接可视化与分析非常困难。降维方法可用于将复杂轨迹投影到低维空间,从而揭示关键动力学模式。
这些方法有助于确定控制非绝热过程的主要自由度,例如某些关键键长或二面角的变化。
聚类分析
为了识别轨迹中的代表性构型与动力学路径,聚类方法被广泛使用:
聚类结果可用于:
动力学与统计量提取
后处理的另一个重点是从轨迹中提取宏观可观测量,例如:
这些量与实验结果可直接对比,从而验证模拟的可靠性。
结合机器学习的后处理
机器学习不仅能加速NAMD模拟本身,也能改进后处理:
这种方法能进一步提升轨迹分析的效率,并揭示复杂体系中难以人工识别的规律。
结论与展望
非绝热分子动力学是研究激发态分子过程的强大工具,但其计算成本极高。机器学习为此提供了变革性机会,通过替代从头算方法的势能与耦合计算,使得更大体系与更长时间尺度的模拟成为可能。
本文总结了最佳实践与最新进展,涵盖:
展望未来,研究人员认为:
研究人员总结道,随着数据生成、模型设计和后处理分析的持续进步,机器学习与非绝热分子动力学的结合有望成为激发态化学的核心方法,为光化学、光子器件和分子设计开辟新的可能性。
整理 | DrugOne团队
参考资料
C. Müller, Š. Srše, B. Bachmair, R. Crespo-Otero, J. Li, S. Mausenberger, M. Pinheiro, Jr., G. Worth, S. A. Lopez and J.
Westermayr, Chem. Sci., 2025, DOI: 10.1039/D5SC05579B.
内容为【DrugOne】公众号原创|转载请注明来源