
在计算机辅助药物与材料设计领域,生成具有特定属性的分子结构一直是核心挑战。传统方法不仅依赖大量实验筛选和专家知识,还难以应对化学空间的庞大与复杂。而北京大学等机构的研究团队开发的MolEdit——一款融合物理感知与偏好对齐的生成式基础模型,为解决这一难题提供了突破性方案。该模型将主流生成式AI的灵活性与分子科学的物理约束相结合,实现了高效、精准的3D分子编辑,相关成果发表于《Nature Communications》。
分子编辑的核心是通过生成、修饰和演化分子结构,使其具备目标功能。但传统方法面临两大瓶颈:一是化学空间的非线性约束优化问题,二是纯数据驱动的生成模型难以规避物理化学"幻觉"(如原子碰撞、键角异常)。
MolEdit的创新在于:
与SMILES字符串或分子图等表示方法相比,3D原子坐标能统一描述构象和异构体,但需处理平移、旋转和分子内对称性等挑战。
关键方法:

图1:不同分子表示方法的优劣对比。a. 单一结构可能对应多个分子图和SMILES字符串(如共振式或互变异构体);b. 相似分子图可能映射为差异显著的SMILES(如甲基位移导致编辑距离达23); c. 3D坐标可统一描述构象和异构体;d. 分子的SE(3)对称性和置换对称性。

图2:3D空间中分子扩散模型的对称性解决方案。a. 同步扩散(中间)与异步扩散(上下)的对比,AMD策略将成分与结构扩散分离;b. MolEdit的工作流:先生成分子成分,再条件生成结构,最后组装分子图;c. MolEdit在QM9(≤9个重原子)、ZINC(≤64个重原子)和QMugs(≤100个重原子)数据集上生成的分子示例,均保持高有效性。
纯数据驱动模型常生成物理不稳定的分子结构,MolEdit通过玻尔兹曼-高斯混合(BGM)核解决这一问题:

图3:分子对称性感知评估。a. 对抗净化实验:高对称性分子经扩散攻击后对称性丧失,MolEdit(上)比EDM模型(下)能恢复更多对称元素;b. 不同扩散时间步下的对称性损失(归一化),MolEdit的对称性保留更稳定;c. MolEdit生成的高对称性分子与数据集分布一致。

图4:MolEdit生成分子的稳定性与多样性。a. 不同模型生成分子的MPI分布(GAFF力场),BGM核显著降低MPI;b. 不同温度下BGM核对MPI的降低效果;c. BGM核生成的分子具有高物理稳定性;d. MolEdit能为复杂分子生成多样构象,而RDKit等工具难以实现;e. 不同方法在构象多样性和稳定性上的平衡,MolEdit表现最优;f. MolEdit可生成约束构象(如环己烷的椅式/船式、双键的E/Z构型)。
MolEdit能从SMILES或分子图等文本表示生成3D结构,尤其擅长处理含复杂环系的分子。例如,对于RDKit难以处理的双环结构,MolEdit可生成多样且合理的构象。
MolEdit支持多种定向编辑任务,满足药物设计中的精细需求:

图5:MolEdit的多场景分子编辑能力。a. 根据化学条件生成不同大小的脂环;b. 共轭体系中芳香环的改造(保留蓝色区域,生成红色区域);c. 糖胺分子中功能基团的重新定位(保留核心,修饰侧链);d. 为两个分子片段设计多样连接子;e. 腺苷酸环化酶抑制剂的骨架跃迁(三环→吡唑环)及R基团修饰,生成分子与原结合构象完美重叠。
通过形状感知扩散过程,MolEdit能生成与先导分子形状相似的新分子,且结合亲和力相当或更优。例如:

图6:基于MolEdit的先导分子印迹设计。a. 形状感知扩散过程的随机微分方程,结合回旋半径和形状相似性评分;b. 生成分子与模板分子(如Lorlatinib)的形状、对接构象和亲和力对比;c. PI3Kα-H1047R抑制剂的设计,生成分子保留关键氢键且对接评分高。
MolEdit作为基础模型,在药物研发中展现出显著潜力:
当前局限包括氢原子坐标生成缺失、键序推断歧义等,未来可通过氢感知训练、ControlNet插件等方向改进。随着技术完善,分子编辑有望像图像编辑一样直观高效,加速新药和新材料的发现。
论文链接: https://doi.org/10.1038/s41467-025-61323-x 代码链接: https://github.com/issacAzazel/MolEdit 数据: https://zenodo.org/records/15480816