

论文标题:ZATOM-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials arXiv 编号:2602.22251v2 发表时间:2026 年 3 月 6 日(预印本) 主要机构:Lawrence Berkeley 国家实验室、MIT、耶鲁大学、剑桥大学、UC Berkeley 通讯作者:Alex Morehead、Rex Ying、N. Benjamin Erichson、Michael W. Mahoney 开源地址:https://github.com/Zatom-AI/zatom
当前 AI 驱动的化学研究呈现出明显的双重割裂:
割裂一:领域割裂
割裂二:任务割裂
这种碎片化导致严重的工程与科研效率问题:一个希望同时探索分子设计和性质预测的研究人员,往往需要维护、训练和调试数十个不同的专门模型。
受 NLP 领域 BERT/GPT 和蛋白质领域 AlphaFold3 的成功启发,研究者开始寻找"化学版基础模型"——能够通过大规模无监督预训练获得通用化学表示,再迁移至多种下游任务。
ZATOM-1 的核心假设:生成式流匹配预训练天然是一种强力的自监督学习信号,其习得的表示能够迁移至性质预测任务,且跨领域(分子↔材料)联合预训练能产生正向迁移,而非负迁移或中性影响。
这一假设此前在 3D 化学领域从未被系统验证,ZATOM-1 提供了首个肯定性的实证证据。
ZATOM-1 将任意 3D 原子系统(分子或材料)统一表示为五种模态的联合分布:
模态 | 符号 | 类型 | 维度 | 说明 |
|---|---|---|---|---|
原子类型 | 离散 | 元素类别(整数编码) | ||
3D 笛卡尔坐标 | 连续 | 以埃(Å)为单位,零中心化 | ||
分数坐标 | 连续 | 仅用于材料, | ||
晶格边长 | 连续 | 仅用于材料,训练时除以 归一化 | ||
晶格角度 | 连续 | 仅用于材料,训练时转为弧度 |
关键设计:
这一统一设计使得同一模型能够无缝处理两类化学系统,而无需任何领域特定的架构分支。
ZATOM-1 的核心架构是标准 Transformer,称为基于主干的流变换器(TFT),其设计哲学是"最大化标准化"——避免手工设计的等变归纳偏置,让模型通过数据增强习得对称性。

组件 | 具体选择 | 说明 |
|---|---|---|
注意力机制 | Flash Attention(Dao, 2024) | IO 感知,显著减少 HBM 读写,加速长序列处理 |
注意力归一化 | Query-Key Normalization | 改善大模型训练稳定性(Wortsman et al., 2024) |
前馈网络 | SwiGLU FFN(Shazeer, 2020) | 门控线性单元变体,比 GELU 提供更好的表达力 |
主干深度 | 16 层 Transformer blocks | 三种尺寸均一致 |
注意力头数 | 8 头 | 三种尺寸均一致 |
隐藏维度 | 512 / 768 / 1024 | 对应 80M / 160M / 300M 参数量 |
模型 | 精确参数量 | 隐藏维度 | 训练时长(16×A100) |
|---|---|---|---|
ZATOM-1 (80M) | 77,350,264 | 512 | 24 小时 |
ZATOM-1-L (160M) | 162,615,544 | 768 | 48 小时 |
ZATOM-1-XL (300M) | 293,887,096 | 1024 | 96 小时 |
完整的前向传播分为四个步骤(对应 Algorithm 1):
步骤 1:输入嵌入与位置编码
对于含噪声的原子系统 ,每个原子的初始隐层状态为:
其中 是周期性/非周期性类别标签(训练时以 10% 概率随机丢弃,以支持无分类器引导), 是流匹配时间步, 表示无偏置线性层。
步骤 2:Transformer 主干编码
层 Transformer 编码器产生中间表示 和第 层中间表示 (用于下游任务):
步骤 3:残差交叉注意力去噪头
主干输出 与原始输入嵌入 通过 Transformer 解码器块进行残差交叉注意力,分别得到各模态的精炼表示:
步骤 4:模态去噪预测
与 AlphaFold3 类似,ZATOM-1 通过随机数据增强习得对称性,而非硬编码等变性:
这一选择带来的代价是需要更多数据和计算来习得对称性,但收益是架构极度简洁、与工业界主流 Transformer 生态高度兼容。
条件流匹配(CFM)是一种训练生成模型的可扩展技术。其核心思想是训练神经网络 近似从源分布向目标分布输运样本所需的时变速度场:
其中 ,(线性插值路径)。
相比扩散模型的优势:
对于 、、、 四种连续模态,前向过程为:
损失函数为端点预测(endpoint formulation)的均方误差:
采用端点而非速度预测的原因:经验结果表明,预测去噪端点在科学应用中表现更稳定(Stark et al., 2024)。
原子类型 是整数,不能直接用欧几里得扩散处理。ZATOM-1 采用离散流模型(Campbell et al., 2024)中的 Discrete CFM:
即在时刻 时,以概率 保持真实原子类型的 one-hot 分布,以概率 保持均匀分布。损失函数为交叉熵:
五种模态的损失统一为加权多目标:
训练时设 ,对离散损失适当降权以平衡尺度差异。
① 时间步非均匀采样
相比均匀采样 ,Beta 分布在 (接近干净数据)附近采样更多,强迫模型学习高精度细节。
② 损失时间缩放
当 时,, 趋于零,梯度消失。为此引入时间自适应损失权重:
在接近数据端时大幅放大损失,迫使模型精确学习干净结构的细节。
③ EMA 权重平均
推理时使用指数移动平均权重(),显著提升生成质量的稳定性。
推理时交替对每种模态执行一步 Euler 积分(Algorithm 2):
其中 为噪声调度函数, 为白噪声强度超参数(通常设为 ,对非周期小分子坐标设为 )。
反直觉发现:启用无分类器引导(Classifier-Free Guidance)会使材料有效率从 90% 骤降至 40%,原因尚不明确,论文默认禁用。
预训练完成后,冻结主干所有权重,仅训练新增的下游任务组件:
这种设计的优势:不同任务的主干权重完全共享(零边际存储成本),辅助头极轻量(~20M 参数),且冻结主干避免了对生成能力的灾难性遗忘。
性质预测(19 个 QM9 属性):批内 MAE
能量预测:批内 MSE
原子力预测(加权 MSE):
微调阶段时间步采样改为:
即大量集中在 附近(接近干净数据的区域),确保模型从近乎真实的结构出发进行性质预测,最大程度减少噪声干扰。
数据集 | 类型 | 规模 | 用途 |
|---|---|---|---|
QM9 | 非周期小分子 | ~13万(≤9重原子) | 生成预训练 + 性质微调 |
MP20 | 周期性晶体 | 45,231(≤20原子/单元胞) | 生成预训练 |
GEOM-Drugs | 大型药物分子 | ~43万(≤180原子) | 生成评估 |
QMOF | 金属有机框架(MOF) | ~14,000(≤150原子) | 生成扩展实验 |
Matbench | 材料性质 | 多任务 | 预测微调 |
MPtrj | 材料能量/力 | 来自 Materials Project | MLIP 微调 |
OMol25 (4M) | 分子能量/力 | 400万 | MLIP 微调 |
参数 | QM9 分子 | MP20 晶体 | GEOM-Drugs |
|---|---|---|---|
积分步数 | 100 | 100 | 100 |
白噪声强度 (坐标) | 50 | 0.01 | 0.01 |
白噪声强度 (其他连续) | 0.01 | 0.01 | 0.01 |
注意:QM9 的坐标噪声设为 50 而非 0.01,是因为小分子系统需要更大的随机扰动来提升样本多样性,避免模型坍缩到少数高概率构象。
使用 LeMat-GenBench 评估框架,对 2,500 个采样晶体通过 MLIP 集成(Orb-v3、MACE-MP、UMA)进行严格评估。

优势:
不足:
模型 | 训练方式 | 参数量 | 有效率↑ | 唯一率↑ |
|---|---|---|---|---|
Equivariant Diffusion | 仅 QM9 | 20M | 91.90% | 98.69% |
GeoLDM | 仅 QM9(两阶段) | 20M | 93.80% | 98.82% |
ADiT | 仅 QM9(两阶段) | 180M | 92.19% | 97.90% |
ADiT | 联合(两阶段) | 180M | 94.45% | 97.82% |
ZATOM-1 | 联合(单阶段) | 80M | 94.94% | 97.16% |
ZATOM-1-L | 联合(单阶段) | 160M | 95.26% | 96.84% |
ZATOM-1 用 80M 参数、单阶段训练达到了与 180M ADiT 相当的有效率,且仅需 400 GPU 小时对比 ADiT 的 1,200 GPU 小时。
对 10,000 个生成分子进行 7 项严格物理检验,ZATOM-1 整体通过率约 99%(vs. ADiT 的 ~95%),尤其在内能合理性(99.78% vs. 95.86%)方面有显著优势:
检验项 | Symphony | Eq. Diff. | ADiT(联合) | ZATOM-1(联合) |
|---|---|---|---|---|
原子全连通 | 99.92% | 99.88% | 99.70% | 99.98% |
键角合理 | 99.56% | 99.98% | 99.85% | 99.95% |
键长合理 | 98.72% | 100.00% | 99.41% | 99.97% |
芳环共面 | 100.00% | 100.00% | 100.00% | 100.00% |
双键共面 | 99.07% | 98.58% | 99.98% | 99.99% |
内能合理 | 95.65% | 94.88% | 95.86% | 99.78% |
无位阻碰撞 | 98.16% | 99.79% | 99.79% | 99.81% |

内能合理性的大幅领先表明 ZATOM-1 生成的构象具有更优的热力学合理性,这对药物设计应用尤为重要。
GEOM-Drugs 包含最多 180 个原子的大型类药分子,是检验模型泛化能力的关键基准。

ZATOM-1 是唯一在 GEOM-Drugs 上达到 PoseBusters 综合通过率理论上限(94%)的生成模型,表明其生成的药物样大分子在物理合理性上接近真实药物构象的天花板。
值得注意的是,TABASCO 的有效率(97.6%)高于 ZATOM-1(93.6%),但在 PoseBusters 综合通过率(尤其是位阻碰撞检测)方面劣于 ZATOM-1,表明高有效率不一定意味着高物理真实性。
在单张 NVIDIA A100 GPU 上生成 10,000 个样本,ZATOM-1 相比基线的速度优势随积分步数增加而扩大:
模型 | 参数量 | 100步推理时间(晶体) | 100步推理时间(分子) |
|---|---|---|---|
ADiT-L | 500M | ~285 分钟 | ~400 分钟 |
ADiT-B | 180M | ~150 分钟 | ~200 分钟 |
ZATOM-1 | 80M | ~23 分钟 | ~32 分钟 |
ZATOM-1-XL | 300M | ~60 分钟 | ~80 分钟 |
速度优势来源于两个因素:
这是本文最具说服力的结果之一,验证了"生成式预训练改善预测性能"的核心假设。
模型 | 类别 | ↓ | ↓ | ↓ | ↓ | ↓ | ↓ |
|---|---|---|---|---|---|---|---|
EquiformerV2 | 优化单任务 | .050 | 29.0 | 14 | 13 | .010 | .023 |
PΘNITA | 优化单任务 | .038 | 30.4 | 16 | 15 | .012 | .024 |
AIM-MTL-Matrix | 未优化多任务 | .251 | — | 61 | 72 | .088 | .103 |
无预训练 ZATOM-1 | 未优化多任务 | .140 | 72.3 | 54 | 49 | .157 | .064 |
QM9 预训练 ZATOM-1 | 未优化多任务 | .095 | 49.5 | 36 | 34 | .100 | .044 |
联合预训练 ZATOM-1 | 未优化多任务 | .091 | 46.2 | 34 | 32 | .090 | .041 |

核心发现:
训练配置 | 晶体有效率 | 晶体亚稳率 | 分子有效率 |
|---|---|---|---|
仅 MP20 训练(材料) | 73.2% | 32.7% | — |
仅 QM9 训练(分子) | — | — | 92.88% |
联合 QM9 + MP20 | 88.5% | 51.8% | 94.94% |
联合训练在两个域上均优于对应的单域训练,充分验证了"跨化学域互补增益"假设。
预训练主干第 层的嵌入用于下游任务时,不同层表现差异显著:
K 值 | QM9 分子性质预测 | 材料性质预测(零样本) |
|---|---|---|
K = L(最终层) | 最优 | 次优 |
K = L/2(中间层) | 次优 | 最优 |
这一现象揭示了主干层次的语义分工:较深层更专注于分子细节,中间层包含更多跨域通用表示,对未见过的材料性质任务具有更好的零样本泛化能力。这与 NLP 中关于 BERT 层次的经典分析高度吻合。
Figure 3 呈现的规模化结果具有重要意义:
这种近乎完美的规模化规律表明 ZATOM-1 的架构设计(标准 Transformer + QKNorm)已进入稳定的规模化机制,符合 Kaplan et al. (2020) 的神经网络规模化定律。
重要例外:预测任务的性能并不随主干规模单调提升(ZATOM-1-XL 的预测性能弱于 ZATOM-1)。作者将此归因于预训练数据集规模过小——当数据量固定时,过大的模型容量导致过拟合,而非欠拟合。
通过系统超参数扫描(Figure 5),关键发现如下:

PLATOM-1 将 TFT 的标准 Transformer 层替换为 Platonic Transformer 层(Islam et al., 2025),实现对 Platonic 实体的离散旋转-反射子群 的等变性(如正四面体群 或正方体群 )。
特征张量从 变为 (正则 -表示),其中:
计算效率:为使计算成本与 TFT 相当,设 ,对正四面体群():
模型 | 参数量 | 收敛 epoch | QM9 有效率↑ | PoseBusters 综合↑ |
|---|---|---|---|---|
ZATOM-1(QM9 单训) | 80M | 399 | 92.88% | ~99.63%(估算) |
PLATOM-1(QM9 单训) | 23M | 249 | 95.20% | ~99.84%(估算) |
ZATOM-1-XL(联合训) | 300M | 2000 | 95.19% | — |
关键结论:
PLATOM-1 的等变设计与材料的分数坐标表示根本不兼容:分数坐标是标量,在正则 -表示中提升为不变特征,模型无法感知原始欧几里得几何,导致联合训练不收敛。
未来方向:基于欧几里得坐标统一表示材料(而非分数坐标),使 PLATOM-1 能够进行跨域联合训练。
局限 | 具体描述 | 潜在影响 |
|---|---|---|
新颖率低 | 晶体材料新颖率仅 3.7%~8.1%,显著低于 MatterGen/DiffCSP | 发现全新材料拓扑结构的能力受限 |
能量预测弱 | 能量 MAE 远高于专门 MLIP(eSEN),原子力表现相对较好 | 暂时无法替代 MACE、eSEN 等专门势函数模型 |
数据规模限制 | 预训练仅用 QM9(13万)+ MP20(4.5万),远小于 LMM 的训练规模 | 大模型不如小模型,scaling law 在小数据下失效 |
MOF 有效率低 | QMOF 上的 MOF 生成有效率仅 8.4%(还未收敛) | 复杂拓扑材料的生成仍具挑战 |
材料等变扩展 | PLATOM-1 与分数坐标表示不兼容 | 等变增益暂时无法迁移至材料生成 |
CFG 失效 | 无分类器引导在该场景下降低性能,机理不明 | 条件生成(按性质引导)的路径需重新设计 |
作者明确指出的优先方向:
ADiT(Joshi et al., 2025)是 ZATOM-1 最直接的竞争对手,两者都统一建模分子和材料,下面系统对比其设计选择:
维度 | ADiT | ZATOM-1 |
|---|---|---|
生成范式 | 潜扩散(先编码到潜空间) | 环境流匹配(直接在原子坐标空间) |
架构 | 标准 Transformer(非等变) | 标准 Transformer + QKNorm/SwiGLU |
需要自动编码器 | ✅ 是(两阶段训练) | ❌ 否(单阶段端到端) |
参数量 | 80M / 180M / 500M | 80M / 160M / 300M |
推理速度(100步,10K样本) | 分子 ~200 分钟 | 分子 ~32 分钟(6×快) |
QM9 有效率 | 94.45%(联合) | 94.94%(联合) |
GEOM-Drugs PoseBusters | 85.3% | 94.1% |
GPU 训练时长 | ~1,200 小时(联合) | ~400 小时(联合) |
下游预测支持 | ❌ 不支持 | ✅ 多任务微调 |
开源 | ✅ | ✅ |
等变方法(如 Equivariant Diffusion、DiffCSP、SemlaFlow)将旋转/平移不变性/等变性硬编码入架构:
维度 | 等变方法 | ZATOM-1 |
|---|---|---|
对称性处理 | 硬编码(SE(3)/E(3) 等变架构) | 数据增强学习 |
参数效率 | 高(共享权重) | 低(需更多参数习得对称性) |
收敛速度 | 快(PLATOM-1 对比验证) | 慢 |
跨域泛化 | 受限(多领域适配复杂) | 自然支持 |
推理速度 | 中等(GNN 的稀疏图计算) | 极快(密集 Transformer) |
可扩展性 | 较差(等变运算难以高效扩展) | 优秀(符合 scaling law) |
维度 | GeoLDM / ADiT | ZATOM-1 |
|---|---|---|
训练复杂度 | 高(需先训练自动编码器) | 低(端到端单阶段) |
推理链路 | 潜空间采样 → 解码 → 结构 | 直接原子坐标采样 |
信息损失 | 有(潜空间压缩) | 无(全精度坐标) |
GPU 小时 | 3× 以上 | 基准 |
ZATOM-1 做出了以下系统性贡献:
贡献层次 | 具体内容 |
|---|---|
方法论 | 验证多模态流匹配生成式预训练是 3D 化学系统的有效自监督学习范式 |
跨域迁移 | 在 SciML 中实证证明"材料预训练→分子性质预测"存在正向迁移 |
统一建模 | 打通了分子生成、材料生成、多任务性质预测、能量/力预测四类任务 |
效率 | 推理速度比潜扩散基线快 12.5 倍,训练计算量节省 3 倍 |
规模化 | 在 80M~300M 参数范围内展现出符合 scaling law 的可预测性能提升 |
开源 | 提供完整开源代码与权重,填补了该领域缺乏可复现基础模型的空白 |
对模型设计的启示:
对研究范式的启示:
本文基于 arXiv:2602.22251v2(2026 年 3 月 4 日版本)整理,如有引用请以原始论文为准。