首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Commun. | MolEdit:物理感知与偏好对齐的生成式基础模型引领 3D 分子编辑革新

Nat. Commun. | MolEdit:物理感知与偏好对齐的生成式基础模型引领 3D 分子编辑革新

作者头像
MindDance
发布2026-01-08 12:55:40
发布2026-01-08 12:55:40
1630
举报

在计算机辅助药物与材料设计领域,生成具有特定属性的分子结构一直是核心挑战。传统方法不仅依赖大量实验筛选和专家知识,还难以应对化学空间的庞大与复杂。而北京大学等机构的研究团队开发的MolEdit——一款融合物理感知与偏好对齐的生成式基础模型,为解决这一难题提供了突破性方案。该模型将主流生成式AI的灵活性与分子科学的物理约束相结合,实现了高效、精准的3D分子编辑,相关成果发表于《Nature Communications》。

分子编辑的困境与MolEdit的突破

分子编辑的核心是通过生成、修饰和演化分子结构,使其具备目标功能。但传统方法面临两大瓶颈:一是化学空间的非线性约束优化问题,二是纯数据驱动的生成模型难以规避物理化学"幻觉"(如原子碰撞、键角异常)。

MolEdit的创新在于:

  • 兼容主流生成式AI框架:通过简单的训练标签重构,将图像生成领域的扩散模型适配到分子生成,避免了领域特定模型的局限性。
  • 物理与数据双驱动:融合数据驱动的生成能力与物理约束,显著减少分子结构的"幻觉"问题。
  • 多模态与可扩展性:以3D分子重构为预训练目标,可轻松扩展到更大数据集,适配多种下游任务。

核心技术:对称性感知与物理对齐

1. 3D分子表示与对称性处理

与SMILES字符串或分子图等表示方法相比,3D原子坐标能统一描述构象和异构体,但需处理平移、旋转和分子内对称性等挑战。

关键方法

  • 异步多模态扩散(AMD):将分子成分与原子位置的扩散过程解耦,避免同时扩散所有原子导致的组合爆炸。
  • 组优化(GO)标记:重构DDPM的训练标签,使其尊重平移、旋转和置换对称性,且不改变模型架构,实现"即插即用"。
图1:不同分子表示方法的优劣对比。a. 单一结构可能对应多个分子图和SMILES字符串(如共振式或互变异构体);b. 相似分子图可能映射为差异显著的SMILES(如甲基位移导致编辑距离达23); c. 3D坐标可统一描述构象和异构体;d. 分子的SE(3)对称性和置换对称性。
图1:不同分子表示方法的优劣对比。a. 单一结构可能对应多个分子图和SMILES字符串(如共振式或互变异构体);b. 相似分子图可能映射为差异显著的SMILES(如甲基位移导致编辑距离达23); c. 3D坐标可统一描述构象和异构体;d. 分子的SE(3)对称性和置换对称性。

图1:不同分子表示方法的优劣对比。a. 单一结构可能对应多个分子图和SMILES字符串(如共振式或互变异构体);b. 相似分子图可能映射为差异显著的SMILES(如甲基位移导致编辑距离达23); c. 3D坐标可统一描述构象和异构体;d. 分子的SE(3)对称性和置换对称性。

图2:3D空间中分子扩散模型的对称性解决方案。a. 同步扩散(中间)与异步扩散(上下)的对比,AMD策略将成分与结构扩散分离;b. MolEdit的工作流:先生成分子成分,再条件生成结构,最后组装分子图;c. MolEdit在QM9(≤9个重原子)、ZINC(≤64个重原子)和QMugs(≤100个重原子)数据集上生成的分子示例,均保持高有效性。
图2:3D空间中分子扩散模型的对称性解决方案。a. 同步扩散(中间)与异步扩散(上下)的对比,AMD策略将成分与结构扩散分离;b. MolEdit的工作流:先生成分子成分,再条件生成结构,最后组装分子图;c. MolEdit在QM9(≤9个重原子)、ZINC(≤64个重原子)和QMugs(≤100个重原子)数据集上生成的分子示例,均保持高有效性。

图2:3D空间中分子扩散模型的对称性解决方案。a. 同步扩散(中间)与异步扩散(上下)的对比,AMD策略将成分与结构扩散分离;b. MolEdit的工作流:先生成分子成分,再条件生成结构,最后组装分子图;c. MolEdit在QM9(≤9个重原子)、ZINC(≤64个重原子)和QMugs(≤100个重原子)数据集上生成的分子示例,均保持高有效性。

2. 物理约束嵌入:BGM核抑制"幻觉"

纯数据驱动模型常生成物理不稳定的分子结构,MolEdit通过玻尔兹曼-高斯混合(BGM)核解决这一问题:

  • • 在扩散过程中引入玻尔兹曼因子,强调自由能等物理准则,使模型优先生成合理构型。
  • • 实验显示,BGM核可显著降低分子物理不稳定性(MPI),且低温下效果更优。
图3:分子对称性感知评估。a. 对抗净化实验:高对称性分子经扩散攻击后对称性丧失,MolEdit(上)比EDM模型(下)能恢复更多对称元素;b. 不同扩散时间步下的对称性损失(归一化),MolEdit的对称性保留更稳定;c. MolEdit生成的高对称性分子与数据集分布一致。
图3:分子对称性感知评估。a. 对抗净化实验:高对称性分子经扩散攻击后对称性丧失,MolEdit(上)比EDM模型(下)能恢复更多对称元素;b. 不同扩散时间步下的对称性损失(归一化),MolEdit的对称性保留更稳定;c. MolEdit生成的高对称性分子与数据集分布一致。

图3:分子对称性感知评估。a. 对抗净化实验:高对称性分子经扩散攻击后对称性丧失,MolEdit(上)比EDM模型(下)能恢复更多对称元素;b. 不同扩散时间步下的对称性损失(归一化),MolEdit的对称性保留更稳定;c. MolEdit生成的高对称性分子与数据集分布一致。

图4:MolEdit生成分子的稳定性与多样性。a. 不同模型生成分子的MPI分布(GAFF力场),BGM核显著降低MPI;b. 不同温度下BGM核对MPI的降低效果;c. BGM核生成的分子具有高物理稳定性;d. MolEdit能为复杂分子生成多样构象,而RDKit等工具难以实现;e. 不同方法在构象多样性和稳定性上的平衡,MolEdit表现最优;f. MolEdit可生成约束构象(如环己烷的椅式/船式、双键的E/Z构型)。
图4:MolEdit生成分子的稳定性与多样性。a. 不同模型生成分子的MPI分布(GAFF力场),BGM核显著降低MPI;b. 不同温度下BGM核对MPI的降低效果;c. BGM核生成的分子具有高物理稳定性;d. MolEdit能为复杂分子生成多样构象,而RDKit等工具难以实现;e. 不同方法在构象多样性和稳定性上的平衡,MolEdit表现最优;f. MolEdit可生成约束构象(如环己烷的椅式/船式、双键的E/Z构型)。

图4:MolEdit生成分子的稳定性与多样性。a. 不同模型生成分子的MPI分布(GAFF力场),BGM核显著降低MPI;b. 不同温度下BGM核对MPI的降低效果;c. BGM核生成的分子具有高物理稳定性;d. MolEdit能为复杂分子生成多样构象,而RDKit等工具难以实现;e. 不同方法在构象多样性和稳定性上的平衡,MolEdit表现最优;f. MolEdit可生成约束构象(如环己烷的椅式/船式、双键的E/Z构型)。

核心功能:从文本到分子的精准编辑

1. 文本分子的3D渲染

MolEdit能从SMILES或分子图等文本表示生成3D结构,尤其擅长处理含复杂环系的分子。例如,对于RDKit难以处理的双环结构,MolEdit可生成多样且合理的构象。

2. 上下文感知的功能分子编辑

MolEdit支持多种定向编辑任务,满足药物设计中的精细需求:

图5:MolEdit的多场景分子编辑能力。a. 根据化学条件生成不同大小的脂环;b. 共轭体系中芳香环的改造(保留蓝色区域,生成红色区域);c. 糖胺分子中功能基团的重新定位(保留核心,修饰侧链);d. 为两个分子片段设计多样连接子;e. 腺苷酸环化酶抑制剂的骨架跃迁(三环→吡唑环)及R基团修饰,生成分子与原结合构象完美重叠。
图5:MolEdit的多场景分子编辑能力。a. 根据化学条件生成不同大小的脂环;b. 共轭体系中芳香环的改造(保留蓝色区域,生成红色区域);c. 糖胺分子中功能基团的重新定位(保留核心,修饰侧链);d. 为两个分子片段设计多样连接子;e. 腺苷酸环化酶抑制剂的骨架跃迁(三环→吡唑环)及R基团修饰,生成分子与原结合构象完美重叠。

图5:MolEdit的多场景分子编辑能力。a. 根据化学条件生成不同大小的脂环;b. 共轭体系中芳香环的改造(保留蓝色区域,生成红色区域);c. 糖胺分子中功能基团的重新定位(保留核心,修饰侧链);d. 为两个分子片段设计多样连接子;e. 腺苷酸环化酶抑制剂的骨架跃迁(三环→吡唑环)及R基团修饰,生成分子与原结合构象完美重叠。

3. 先导分子印迹的结合剂设计

通过形状感知扩散过程,MolEdit能生成与先导分子形状相似的新分子,且结合亲和力相当或更优。例如:

  • • 针对ALK、JAK1等靶点,生成分子的对接构象和亲和力与已知药物(如Lorlatinib)相当;
  • • 为PI3Kα-H1047R突变体设计的抑制剂,保留与Arg1047的关键氢键,潜在选择性更优。
图6:基于MolEdit的先导分子印迹设计。a. 形状感知扩散过程的随机微分方程,结合回旋半径和形状相似性评分;b. 生成分子与模板分子(如Lorlatinib)的形状、对接构象和亲和力对比;c. PI3Kα-H1047R抑制剂的设计,生成分子保留关键氢键且对接评分高。
图6:基于MolEdit的先导分子印迹设计。a. 形状感知扩散过程的随机微分方程,结合回旋半径和形状相似性评分;b. 生成分子与模板分子(如Lorlatinib)的形状、对接构象和亲和力对比;c. PI3Kα-H1047R抑制剂的设计,生成分子保留关键氢键且对接评分高。

图6:基于MolEdit的先导分子印迹设计。a. 形状感知扩散过程的随机微分方程,结合回旋半径和形状相似性评分;b. 生成分子与模板分子(如Lorlatinib)的形状、对接构象和亲和力对比;c. PI3Kα-H1047R抑制剂的设计,生成分子保留关键氢键且对接评分高。

应用价值与未来方向

MolEdit作为基础模型,在药物研发中展现出显著潜力:

  • 零样本先导优化:无需重新训练即可优化已知分子;
  • 片段药物设计:高效生成连接子,支持PROTAC等复杂体系设计;
  • 构象控制:精准生成特定构象(如双键的E/Z异构),助力功能分子设计。

当前局限包括氢原子坐标生成缺失、键序推断歧义等,未来可通过氢感知训练、ControlNet插件等方向改进。随着技术完善,分子编辑有望像图像编辑一样直观高效,加速新药和新材料的发现。


论文链接: https://doi.org/10.1038/s41467-025-61323-x 代码链接: https://github.com/issacAzazel/MolEdit 数据: https://zenodo.org/records/15480816

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 分子编辑的困境与MolEdit的突破
  • 核心技术:对称性感知与物理对齐
    • 1. 3D分子表示与对称性处理
    • 2. 物理约束嵌入:BGM核抑制"幻觉"
  • 核心功能:从文本到分子的精准编辑
    • 1. 文本分子的3D渲染
    • 2. 上下文感知的功能分子编辑
    • 3. 先导分子印迹的结合剂设计
  • 应用价值与未来方向
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档