Nemotron 3 Super：面向智能体推理的混合Mamba-Transformer MoE模型

原创

用户11764306

发布于 2026-03-21 06:20:29

5490

智能体AI系统需要具备专业深度的模型来自主解决复杂的技术问题。这些模型必须擅长推理、编码和长上下文分析，同时保持足够的效率以持续大规模运行。

多智能体系统产生的令牌数量是标准聊天的15倍，每次交互都会重新发送历史记录、工具输出和推理步骤。在长任务中，这种“上下文爆炸”会导致目标漂移，即智能体逐渐偏离原始目标。而为每个子任务使用庞大的推理模型（“思维税”）会使得多智能体应用在实际使用中成本过高且响应缓慢。

今天，我们发布Nemotron 3 Super以解决这些限制。这款新Super模型是一个总参数120B、激活参数12B的模型，为软件开发、网络安全分类等复杂的多智能体应用提供最大化的计算效率和准确性。该模型是在去年12月推出的Nemotron 3 Nano之后发布的。

Super通过其混合专家（MoE）架构解决了“思维税”问题。其吞吐量是之前Nemotron Super的5倍以上。该模型通过原生的1M令牌上下文窗口应对“上下文爆炸”，为智能体提供长期记忆，以实现对齐的、高精度的推理。该模型完全开源，包括权重、数据集和配方，使开发者可以轻松地在自己的基础设施上进行定制、优化和部署。

Nemotron 3 Super的独特之处

Nemotron 3 Super不仅仅是Nano的放大版。它引入了架构创新，使模型能够缓解高容量推理模型中典型的效率与准确性权衡问题：

潜在MoE：通过在令牌到达专家之前对其进行压缩，以相同的推理成本调用4倍数量的专家。
多令牌预测（MTP）：在一次前向传递中预测多个未来令牌，显著减少长序列的生成时间，并实现内置的推测解码。
混合Mamba-Transformer主干：结合Mamba层的序列处理效率和Transformer层的精确推理能力，提供更高的吞吐量，内存和计算效率提升了4倍。
原生NVFP4预训练：针对某机构Blackwell平台优化，与在H100上使用FP8相比，在B200上显着降低了内存需求，并将推理速度提升了4倍，同时保持了准确性。
多环境强化学习（RL）后训练：使用某机构NeMo Gym和NeMo RL，在21种环境配置下进行强化学习，训练过程中使用了超过120万次环境交互。

这些优势共同造就了一个非常适合长时间运行自主智能体的模型。在PinchBench（一个用于评估LLM作为OpenClaw智能体大脑表现的新基准）上，Nemotron 3 Super在整个测试套件中得分85.6%，使其成为同类中最好的开源模型。

架构深度解析

混合Mamba-Transformer MoE主干

Super建立在与Nano相同的混合理念之上，但规模完全不同。其主干交错使用三种层类型：

Mamba-2层：处理大部分序列处理。状态空间模型（SSM）提供了与序列长度相关的线性时间复杂度，这使得1M令牌上下文窗口变得实用而非理论。当智能体需要推理整个代码库、长对话历史或一堆检索到的文档时，Mamba层保持了内存占用的可控性。
Transformer注意力层：在关键深度处交错插入。纯SSM可能在精确的关联召回任务中遇到困难，即从长上下文中找到某个特定事实。注意力层保留了这种能力，确保即使在“大海捞针”的冲突信息中，Super也能保持高保真检索。
MoE层：扩展了有效参数数量，而无需密集计算的成本。每个令牌只激活一部分专家，保持低延迟和高吞吐量——当多个智能体在共享部署中并发运行时，这一点至关重要。

潜在MoE

标准的MoE架构将令牌直接从模型的完整隐藏维度路由到专家。随着模型增长，这个路由层成为瓶颈——它增加了计算成本，并限制了你实际可以部署的专家数量。

Super引入了潜在MoE：在做出路由决策之前，令牌嵌入被投影到一个压缩的、低秩的潜在空间中。专家计算在这个较小的维度中进行，然后将结果投影回完整的模型维度。

这在实际中的意义：

更多专家，相同成本。通过在令牌到达专家之前对其进行压缩，潜在MoE使模型能够以与运行一个专家完全相同的计算成本咨询4倍的专家。
更细粒度的专业化。有了更多可用的专家，模型可以进行高度专业化的路由——例如，为Python语法和SQL逻辑分别激活不同的专家，仅在严格需要时才激活。这种粒度在智能体环境中尤其有价值，因为在一个对话中可能跨越几轮就包含了工具调用、代码生成、数据分析和对话推理。

多令牌预测（MTP）

标准语言模型被训练为一次预测一个令牌——这是一个本质上的短视目标。Super通过MTP进行训练，其中专门的预测头从每个位置同时预测多个未来令牌。

这带来了两个具体的好处：

训练期间更强的推理能力。预测多个未来令牌迫使模型内化更长期的结构和逻辑依赖。模型不是学习猜测下一个看似合理的词，而是必须学会预测连贯的序列。这在对思维链任务上产生了可衡量的提升，在这些任务中，每一步都必须逻辑地跟上一步。
推理时的内置推测解码。通过在一次前向传递中同时预测多个未来令牌，MTP显著减少了生成长序列所需的时间。MTP头提供可以并行验证的草稿预测，使代码和工具调用等结构化生成任务的墙钟速度提升高达3倍——无需单独的草稿模型。

这两个好处都源于同一个设计决策。与为每个偏移量训练独立预测头的架构不同，Super在所有MTP头上使用了共享权重的设计。这既使参数开销最小化，又提高了训练稳定性——这些头学会了就连贯的延续达成一致，而不是分化为特定偏移量的捷径。同样的权重共享也使推测草稿在更长的草稿长度上更加一致，而独立训练的头通常会在此情况下退化。

原生NVFP4预训练

大多数量化模型是从全精度开始，训练后进行压缩，这不可避免地会引入精度损失。Super采取了一种不同的方法：预训练期间大部分浮点乘加运算都以NVFP4（某机构4位浮点格式）运行。该格式针对Blackwell进行了优化，与FP8相比，显着减少了内存需求并加快了推理速度，同时保持了准确性。

在低精度下进行原生训练意味着模型从第一次梯度更新开始，就学会了在4位算术的约束下保持准确。结果是，尽管运行在显着减少的内存占用上，该模型在数学上仍然是稳定且准确的。

我们如何训练Nemotron 3 Super

Nemotron 3 Super的训练分为三个连续的阶段，每个阶段都建立在前一个阶段之上。预训练建立了广泛的世界知识和语言理解。监督微调塑造了模型在部署中将遇到的任务类型上的行为。然后，强化学习针对各种智能体环境中的可验证结果来优化这些行为。

预训练

Super使用针对某机构Blackwell优化的4位浮点格式NVFP4，在25万亿个令牌上进行预训练。Super不是在事后量化全精度模型，而是从第一次梯度更新开始就以降低的精度进行原生训练——这意味着模型在整个预训练过程中，而不仅仅是在推理时，就学会了在4位算术的约束下保持准确性。预训练语料库包含10万亿个独特的精选令牌，模型在整个运行过程中看到了总计25万亿个令牌，其中包括专注于推理和编码的额外计算。

监督微调

在强化学习之前，Super在大约700万个SFT样本上进行了监督微调。这些样本来自一个包含4000万个样本的更广泛的后训练语料库，涵盖了推理、指令遵循、编码、安全性和多步智能体任务。这个阶段建立了行为基础，随后由RL进行优化。模型学习了跨任务类型的正确响应的格式和结构，为后续的RL阶段提供了一个稳定的起点，而不是从一个原始的预训练检查点开始优化。

多环境强化学习

为了使Super与实际智能体行为对齐，模型在NeMo Gym（用于构建和扩展RL训练环境的开源库）中的多样化环境中使用强化学习进行后训练。这些环境评估模型执行一系列动作的能力——生成正确的工具调用、编写功能性代码、产生满足可验证标准的多部分计划——而不仅仅是提供令人满意的单轮响应。这些轨迹构成了使用NeMo RL库进行大规模强化学习的核心训练数据。

这种基于轨迹的强化学习产生了一个在多步工作流程下行为可靠、减少推理漂移并处理智能体管道中常见的结构化操作的模型。

基准测试

Nemotron 3 Super在多个重要的智能体基准测试中取得了领先的准确性，同时保持了惊人的吞吐量。

“Super + Nano”部署模式

Nemotron 3 Nano是在智能体工作流中执行目标明确的单个步骤时实现高准确性的绝佳选择。然而，当多智能体应用升级为复杂的多步活动时，它们需要一个高容量模型来实现卓越的规划和推理能力。例如，一个计算机使用智能体需要在不同模式工具之间做出决策，以创建包含10张高质量幻灯片的演示文稿。

Nemotron 3 Super在此类场景中非常理想。例如，在软件开发中，简单的合并请求可以由Nemotron 3 Nano处理，而需要对代码库有更深理解的复杂编码任务则可以由Nemotron 3 Super处理。而专家级的编码任务则可以由专用模型处理。

使用Super的开源资源进行构建

Nemotron 3 Super完全开源——包括权重、数据集和配方——因此开发者可以轻松地在自己的基础设施上定制、优化和部署模型，以获得最大的隐私和安全性。

模型权重

Nemotron 3 Super的完整参数检查点在Hugging Face和通过NVIDIA NIM上提供。某机构Nemotron开放模型许可为企业提供了保持数据控制和在任何地方部署的灵活性。

端到端训练和评估配方

我们正在发布Nemotron 3 Super的完整训练和评估配方，涵盖了从预训练到对齐的完整流程。这使得开发者能够复现Super的训练过程，为特定领域的变体调整配方，或将其作为自己混合架构研究的起点。

部署手册

我们为主要的推理引擎构建了即用型手册，包含配置模板、性能调优指南和参考脚本。

微调手册

探索我们的Nemotron 3 Super定制化手册，以高效地为您的领域进行微调（LoRA/SFT），或提升其智能体推理能力（GRPO/DAPO）。

开放数据集

Nemotron 3 Super构建在一个完全开放、端到端的数据管道上，涵盖了预训练、后训练和交互式强化学习——为开发者提供了构建智能体AI的可复现基础模块。

开放训练和评估基础设施

某机构发布了开发技术和工具，使研究人员和企业可以灵活地定制Nemotron 3 Super或构建自己的推理模型。所有配方都与GitHub仓库、NeMo Gym、NeMo RL、NeMo Data Designer、NeMo Curator和NeMo Evaluator集成——提供了一个从数据到部署的完整、可复现的管道。

所有Nemotron模型都采用开放评估方式发布，包括一个已发布的评估配方，使任何人都能重新运行和检查Nemotron 3 Super的完整评估流程。