
在3D分子生成领域,一个看似微小却至关重要的问题长期被忽视:分子的手性。现有的扩散模型虽然能保证旋转和平移等变性,却对镜像变换不敏感,无法准确区分左旋和右旋分子。来自青岛大学的研究团队提出 GCLDM,首次在潜空间扩散框架中引入几何完备性概念。通过 SE(3) 等变的几何完备感知网络,GCLDM 不仅达到了 90.3% 的分子稳定性(提升1%),更重要的是解决了手性感知这一基础科学问题。这项工作提醒我们:在追求性能提升的同时,物理正确性同样不可妥协。

GCLDM架构图 - (a)几何完备自编码器和(b)潜空间扩散模型
在化学中,手性分子如同人的左右手——结构互为镜像,但无法通过旋转重合。这个看似抽象的几何性质,在生物世界中却有生死攸关的意义。沙利度胺悲剧是最著名的警示:这个药物的一个对映体能缓解孕吐,另一个却导致胎儿畸形。1960年代的这场灾难造成超过一万名婴儿先天缺陷,至今仍是药物开发史上的惨痛教训。
然而,当前主流的3D分子生成模型却在这个关键问题上存在盲区。E(3) 等变网络能保证模型对旋转和平移的响应正确,但对镜像变换却不敏感。这意味着模型无法区分一个分子及其镜像对映体,在生成过程中可能产生错误的手性构型。
问题的根源在于 E(3) 群包含了反射操作,而真实的物理世界遵循的是 SE(3) 群——只包含旋转和平移,不包含反射。用 E(3) 等变网络处理手性分子,就像用色盲的眼睛分辨红绿灯,原理上就存在信息丢失。
更深层的问题在于,现有模型直接在原子空间进行扩散。分子包含多种模态的特征:连续的3D坐标、离散的原子类型、整数的电荷、布尔的键类型。将这些异质特征强行塞入统一的高斯扩散框架,就像试图用同一把尺子测量长度、温度和颜色,天然存在不匹配。
GCLDM 引入的几何完备性不是简单的技术改进,而是概念层面的突破。传统的消息传递使用标量距离或向量差作为边特征,这些表示对镜像不敏感。几何完备框架则构造了一个局部坐标系,完整编码了原子 和 之间的相对几何关系。
具体来说,对于每条边 ,构造三个正交向量:
这个局部框架不仅编码了距离和方向,还编码了相对取向。关键在于,镜像变换会改变这个框架的手性(从右手系变为左手系),使得模型能够感知并区分对映体。

GCLDM的去噪步骤可视化 - 从随机噪声逐渐转化为稳定分子结构
GCLDM 采用两阶段设计:先将原子空间映射到潜空间,再在潜空间进行扩散。
几何完备自编码器是第一阶段的核心。编码器使用几何完备感知卷积(GCPConv),将分子的坐标 和特征 压缩为潜向量 。这个过程不是简单的降维,而是将多模态的离散/连续特征统一映射到连续的潜空间,同时保持 SE(3) 等变性。
解码器则执行逆操作,从潜向量重建分子结构。关键设计在于引入可学习的噪声参数 σ×δ,允许潜空间有轻微的随机性,避免过拟合到训练集的具体实例,增强泛化能力。
潜空间扩散模型在第二阶段运行。与直接在原子空间扩散不同,这里的扩散对象是连续的潜向量,避免了处理离散特征的困难。去噪网络同样使用 GCPConv,确保整个生成过程保持几何完备性和 SE(3) 等变性。
严格的数学分析证明,几何完备框架满足 SE(3) 等变性。对于任意的旋转矩阵 和平移向量 ,如果输入坐标变换为 ,则局部框架和输出都会相应变换,保持相对几何关系不变。
更重要的是,这个框架不满足反射等变性。这看似缺陷,实则是特性——正因为对镜像敏感,模型才能学习并区分手性信息。这是 GCLDM 相比 E(3) 等变模型的根本优势。
在 QM9 数据集上,GCLDM 在所有指标上刷新了记录。原子稳定性达到 *99.0%*,意味着生成的原子配置几乎都满足价键规则。分子稳定性达到 90.3% ,比 GeoLDM 提升了1个百分点——别小看这1%,在已经高达90%的基准上再提升,需要在边缘案例上精细调优。
有效性(分子是否可连接且满足化学规则)达到 95.2% ,唯一有效性(去除重复后的有效分子比例)为 93.5% 。这些数字背后是数千个生成分子的逐一验证,每一个百分点都代表着更可靠的生成能力。
相比在原子空间操作的 GCDM,GCLDM 的分子稳定性提升了约5个百分点。这个显著差距直接证明了潜空间扩散的优势:将异质特征映射到统一的连续空间,扩散模型能更准确地拟合真实分布。
在属性条件生成任务中,GCLDM 展现出卓越的控制能力。给定目标极化率 α、偶极矩 μ、热容 Cv 等物理量,模型生成的分子与目标值的平均绝对误差在所有6项属性上都是最低的。
特别值得关注的是 LUMO 能级(最低未占据分子轨道能量)的预测,GCLDM 的 MAE 相比前代模型提升了 12.1% 。LUMO 能级直接关系到分子的电子亲和性和反应活性,是药物设计中的关键参数。这个提升意味着模型不仅能生成化学上合理的结构,还能精准控制其电子性质。

训练集与GCLDM生成分子的属性分布对比 - 极化率、偶极矩、热容的直方图高度重合
属性分布的可视化更直观地展示了 GCLDM 的建模能力。生成分子的极化率、偶极矩、热容分布与训练集高度一致,说明模型不仅学会了个别分子,而是捕捉到了整个分布的统计规律。
在 ChEMBL 数据集上的实验更具挑战性。这些药物类分子包含更多重原子(最多12个),结构复杂度远超 QM9 的小分子。GCLDM 在分子稳定性上仍然达到 46.44% 的最优结果,虽然绝对数值较低,但考虑到任务难度,这已是显著成就。
有趣的是,GCLDM 的有效性(71.07%)略低于 GeoLDM(75.53%)。这可能反映了一个权衡:几何完备性对手性的严格约束,在某些情况下限制了模型的探索自由度。但综合评价显示,稳定性的提升更具价值,因为不稳定的分子即使化学上合法,也无法在现实中存在。

无条件约束下GCLDM随机采样生成的分子三维结构可视化
GCLDM 的成功再次验证了潜空间扩散的范式。但为什么将特征映射到潜空间就能提升性能?
答案在于特征对齐。原子类型是离散的分类变量,坐标是连续的欧几里得向量,电荷是整数,键类型是布尔值。这些异质特征在原始空间中"说着不同的语言"。强行用统一的高斯噪声处理它们,就像用同一种翻译规则处理英语、数学符号和音乐记谱,必然损失信息。
潜空间提供了一个公共语言。通过端到端学习,自编码器将不同模态的特征映射到同一个连续向量空间,在这个空间中,欧几里得距离有明确的语义——代表分子的相似性。扩散模型在这个语义化的空间中工作,自然更高效。
引入几何完备框架并非没有成本。构造局部坐标系需要额外的计算开销,每条边不再是简单的标量距离,而是3×3的正交矩阵。这增加了模型的参数量和计算复杂度。
但这个代价是值得的。物理正确性不是可选的附加功能,而是基础约束。一个对手性不敏感的模型,无论在基准测试上得分多高,都不能用于真实的药物设计——因为它可能产生错误的对映体,导致疗效丧失甚至毒性。
GCLDM 的设计哲学是:宁可牺牲一点计算效率,也要保证物理正确性。这是对科学严谨性的坚守,也是对工程实用性的负责。
对称性在深度学习中扮演着微妙的角色。一方面,利用对称性可以减少模型需要学习的自由度,这是归纳偏置的精髓。另一方面,过度的对称性会丢失关键信息,如 E(3) 对反射的不变性导致手性盲。
GCLDM 的启示是:选择正确的对称群至关重要。不是对称性越高越好,而是要与物理现实精确匹配。真实世界的分子遵循 SE(3) 对称性(不含反射),那么模型也应该如此。多余的对称性不是泛化能力,而是信息丢失。
这个洞察超越了分子生成,适用于所有涉及物理约束的深度学习任务。在设计模型时,应该首先问:这个系统遵循什么对称性?然后在架构中硬编码这些对称性,而不是期望模型从数据中自动学习。
尽管 GCLDM 在多个方面取得突破,仍有改进空间。在处理大型复杂分子时,有效性略有下降,这可能是几何完备框架的严格约束带来的副作用。未来可以探索自适应约束强度,在简单分子上使用严格约束,在复杂分子上适当放松,实现灵活性与正确性的平衡。
采样过程仍依赖于先验的分子大小分布。当前方法是先从训练集分布采样原子数量 N,再生成对应规模的分子。这限制了模型生成全新规模分子的能力。理想的方案是让模型端到端学习分子大小,在生成过程中自适应决定何时停止添加原子。
从应用角度看,将 GCLDM 扩展到蛋白质-配体对接是自然的下一步。几何完备性在条件生成中尤其重要——配体必须与蛋白质口袋的手性环境精确匹配。结合 SE(3) 等变性和几何完备性,有望生成既化学合理又空间契合的配体。
更宏观的挑战在于多尺度建模。当前方法在单分子层面运行,但药物设计需要考虑溶剂效应、蛋白质柔性、代谢路径等多尺度现象。如何将几何完备性扩展到分子间相互作用,如何在保持原子级精度的同时捕捉宏观性质,这些都是值得探索的前沿问题。
Q1: 几何完备框架如何在计算上实现?
核心是构造局部正交框架 。给定原子 i 和 j 的坐标,首先计算主轴 ₁。然后选择一个全局参考向量(如z轴),与主轴叉乘得到副轴 e₂,再叉乘得到 e₃。这三个向量形成右手系,完整编码了相对取向。关键优化是缓存中间结果,避免重复计算。实践中,这增加约20-30%的计算开销,但换来了物理正确性。
Q2: 为什么潜空间扩散比原子空间扩散更稳定?
稳定性来自两方面。首先,潜空间是连续的,扩散过程的每一步更新都沿着平滑的流形,避免了离散空间中的突变。其次,自编码器充当了正则化器——它只能重建训练集中见过的合理结构,天然过滤掉了不稳定构型。相比之下,原子空间扩散可能产生中间状态违反价键规则,虽然最终去噪能修正,但增加了优化难度。
Q3: 手性感知对药物设计有多重要?
极其重要。约56%的临床药物是手性化合物,其中88%以单一对映体形式使用。错误的对映体可能无效、毒性大,或干扰正确对映体的作用。伊布洛芬的S-对映体是有效止痛成分,R-对映体几乎无效。更极端的例子是普萘洛尔,S-对映体降血压,R-对映体却升血压。一个对手性不敏感的生成模型,根本无法应用于真实药物开发。
Q4: GCLDM 的两阶段设计能否合并为端到端?
理论上可以,但实践中不明智。分阶段训练允许自编码器专注于学习数据表示,扩散模型专注于学习分布。端到端训练会导致两个目标竞争——编码器可能为了降低扩散损失而牺牲重建质量。更重要的是,预训练的自编码器可以重复使用于不同下游任务(如条件生成、分子优化),而端到端模型需要为每个任务重新训练。
参考文献:Qunhao Zhang, Jun Xiao, Dongjiang Niu, Zhixin Zhang, Shanyang Ding, Zhen Li, Geometry-complete latent diffusion model for 3D molecule generation, Bioinformatics, Volume 41, Issue 8, August 2025, btaf426, https://doi.org/10.1093/bioinformatics/btaf426
代码数据:
https://github.com/charlotte0104/GCLDM-for-3d-molucule-generation
数据集: QM9, ChEMBL
欢迎在评论区分享您对几何完备性和手性感知的看法。如果您对 AI 药物发现和3D分子生成感兴趣,欢迎关注 MindDance 公众号获取更多前沿内容,也欢迎将文章分享给您的同行。