J. Chem. Inf. Model. | SE(3)-扩散模型驱动的高效蛋白与复合物动力学生成

DrugOne

发布于 2025-11-17 21:00:28

1900

文章被收录于专栏：DrugOneDrugOne

蛋白及蛋白–蛋白复合物的构象动态在生物功能中发挥关键作用，但传统分子动力学（MD）模拟探索这些动态的计算成本极高。增强采样方法虽然有所改进，但仍受限于庞大的构象空间。近期，生成式深度学习的快速发展为蛋白构象采样开辟了新途径。为此，研究人员提出了蛋白轨迹扩散模型（PTraj-Diff） ——一种基于几何扩散的生成框架，可高效生成蛋白及复合物的动力学轨迹。该模型通过迭代去噪的方式，从随机噪声中重建稳定构象。借助残基级 SE(3) 参数化，模型有效捕捉天然蛋白的几何约束与结构关系，并引入张量积注意力机制（Tensor Product Attention, TPA），以降低计算复杂度和硬件需求。同时结合增强型 BERT 编码器精确建模长程时间依赖。实验结果表明，PTraj-Diff 能高效探索单体蛋白与复合物的构象轨迹，并可与 AlphaFold3 生成的多样静态构象兼容，从而预测高质量动态轨迹。随着深度生成模型与分子动力学模拟的融合，该方法有望成为研究蛋白动态与揭示生物功能的重要工具。

蛋白是生物系统的核心执行者，其折叠、催化及信号传导等功能依赖于复杂的构象变化与分子间相互作用。理解从折叠路径到结合过程的动态轨迹，对于阐明疾病机制、设计药物和开展合成生物学至关重要。

实验手段如冷冻电镜（cryo-EM）与核磁共振（NMR）虽能揭示蛋白结构，但难以捕获瞬态态与长时间尺度的动态。计算方法如 AlphaFold3 和 RoseTTAFold 虽在静态结构预测上取得突破，却无法刻画蛋白的构象集合与时间演化。

分子动力学（MD）模拟仍是研究蛋白动态的“金标准”，但其计算代价巨大，尤其在大体系或缓慢构象转变时。即便采用偏置采样（如元动力学）等增强方法，也难以在可接受时间内覆盖完整构象空间。此外，力场的精度限制了其对非经典相互作用或无序区域的建模能力。

因此，亟需一种兼顾物理合理性与计算效率的生成式替代方案。SE(3)-等变的生成模型为此提供了可能，它能在三维空间中保持旋转和平移对称性，成为构象空间学习的新方向。

方法概述

PTraj-Diff 框架基于扩散生成原理构建，通过时间条件化的网络捕获不同构象状态间的时间依赖，实现连续轨迹的生成。其主要创新包括：

SE(3)-参数化残基表示：

每个残基的旋转和平移被表示为 SE(3) 群下的不变变换，以保持几何一致性。

张量积注意力机制（TPA）：

代替传统多头注意力（MHA），通过低秩张量分解大幅减少内存使用与计算负担。

双层编码结构：

使用 BERT 编码器与轻量解码器结合，实现长程依赖捕获与噪声预测。

数据高效训练：

模型仅需少量 MD 数据即可生成高质量轨迹，并可直接从 AlphaFold3 的静态构象起始，无需预处理。

图1 | PTraj-Diff 模型框架示意图

结果

生成构象的精度评估

研究人员在两种体系上进行了性能测试：单体蛋白 1HPV 与复合物 1BRS。结果显示，所有 1HPV 预测构象的 TM-score 均在 0.5–1.0 范围内，RMSD 几乎全部低于 2 Å，表明生成结构与晶体构象高度一致。在复合物任务中，DockQ 与 iRMSD 指标分别反映了结合界面和整体匹配的优异精度，超过 96% 的样本处于高质量区间。

图2 | 生成构象的结构评估与对比

构象多样性与能量面采样

PTraj-Diff 可生成与 MD 模拟高度一致的构象分布，同时显著扩展采样空间。Ramachandran 图显示模型在 500 ns 轨迹数据训练后能有效学习蛋白的柔性区域。生成轨迹的均方波动（RMSF）与 MD 模拟吻合，表明模型捕捉了关键动力学特征。叠合分析进一步证明其在全局折叠与界面构象上的精确度。

长时间尺度采样能力

研究人员将采样步长从 60 帧扩展至 3000 帧，以评估模型在更长时间下的稳定性。

结果表明：

在蛋白体系中，TM-score 保持在 0.5–1.0，RMSD 大多小于 2 Å；
在复合物体系中，DockQ 大于 0.8，iRMSD 小于 1 Å；
这说明模型在长期轨迹生成中仍能保持结构一致性与能量稳定性。

图3 | 不同初始条件下的马尔可夫转移矩阵分析

消融实验与对比分析

研究人员比较了多种模型结构，包括基线 MDGen、扩散版本 MDGen-Diff、以及引入 IPA 与自定义 TPA 模块的 PTraj-Diff 变体。

结果显示：

引入 IPA 后，高质量样本比例提高约 30%；
融合自定义 TPA 后，DockQ 指标进一步提升 9.5%，显著改善界面建模性能。

图4 | 不同初始结构条件下的轨迹质量分布

讨论

PTraj-Diff 将 SE(3)-等变几何建模与扩散生成机制相结合，不依赖显式运动方程即可学习平衡态构象分布，从而在极低计算成本下实现高保真动态采样。

研究人员认为该方法的核心优势在于：

数据效率高 —— 仅需短程 MD 轨迹即可学习系统动力学分布；
结构泛化强 —— 可直接从 AlphaFold3 静态构象生成动态轨迹；
物理合理性强 —— 生成样本在 RMSD、DockQ、TM-score 等多指标上均表现出与真实轨迹相当的精度。

然而，该框架目前仍主要应用于蛋白及蛋白–蛋白体系，尚未扩展至蛋白–配体复合物。未来工作将重点探索其在药物发现与复杂分子相互作用建模中的潜力，实现从蛋白到小分子的跨层级动态预测。

整理 | 王建民

参考资料

Kai Xu, Jianmin Wang, Mingquan Liu, Kewei Zhou, Shaolong Lin, Weihong Li, Lin Shi, Peng Zhou, Huanxiang Liu, and Xiaojun Yao. "EEfficient Generation of Protein and Protein–Protein Complex Dynamics via SE(3)-Parameterized Diffusion Models." Journal of Chemical Information and Modeling;

https://doi.org/10.1021/acs.jcim.5c01971

J. Chem. Theory Comput. | 基于Transformer的生成模型探索蛋白质-蛋白质复合物的构象系综

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-11-08，如有侵权请联系 cloudcommunity@tencent.com 删除

模型