智能体AI系统需要具备专业深度的模型来自主解决复杂的技术问题。这些模型必须擅长推理、编码和长上下文分析,同时保持足够的效率以持续大规模运行。
多智能体系统产生的令牌数量是标准聊天的15倍,每次交互都会重新发送历史记录、工具输出和推理步骤。在长任务中,这种“上下文爆炸”会导致目标漂移,即智能体逐渐偏离原始目标。而为每个子任务使用庞大的推理模型(“思维税”)会使得多智能体应用在实际使用中成本过高且响应缓慢。
今天,我们发布Nemotron 3 Super以解决这些限制。这款新Super模型是一个总参数120B、激活参数12B的模型,为软件开发、网络安全分类等复杂的多智能体应用提供最大化的计算效率和准确性。该模型是在去年12月推出的Nemotron 3 Nano之后发布的。
Super通过其混合专家(MoE)架构解决了“思维税”问题。其吞吐量是之前Nemotron Super的5倍以上。该模型通过原生的1M令牌上下文窗口应对“上下文爆炸”,为智能体提供长期记忆,以实现对齐的、高精度的推理。该模型完全开源,包括权重、数据集和配方,使开发者可以轻松地在自己的基础设施上进行定制、优化和部署。
Nemotron 3 Super不仅仅是Nano的放大版。它引入了架构创新,使模型能够缓解高容量推理模型中典型的效率与准确性权衡问题:
这些优势共同造就了一个非常适合长时间运行自主智能体的模型。在PinchBench(一个用于评估LLM作为OpenClaw智能体大脑表现的新基准)上,Nemotron 3 Super在整个测试套件中得分85.6%,使其成为同类中最好的开源模型。
Super建立在与Nano相同的混合理念之上,但规模完全不同。其主干交错使用三种层类型:
标准的MoE架构将令牌直接从模型的完整隐藏维度路由到专家。随着模型增长,这个路由层成为瓶颈——它增加了计算成本,并限制了你实际可以部署的专家数量。
Super引入了潜在MoE:在做出路由决策之前,令牌嵌入被投影到一个压缩的、低秩的潜在空间中。专家计算在这个较小的维度中进行,然后将结果投影回完整的模型维度。
这在实际中的意义:
标准语言模型被训练为一次预测一个令牌——这是一个本质上的短视目标。Super通过MTP进行训练,其中专门的预测头从每个位置同时预测多个未来令牌。
这带来了两个具体的好处:
这两个好处都源于同一个设计决策。与为每个偏移量训练独立预测头的架构不同,Super在所有MTP头上使用了共享权重的设计。这既使参数开销最小化,又提高了训练稳定性——这些头学会了就连贯的延续达成一致,而不是分化为特定偏移量的捷径。同样的权重共享也使推测草稿在更长的草稿长度上更加一致,而独立训练的头通常会在此情况下退化。
大多数量化模型是从全精度开始,训练后进行压缩,这不可避免地会引入精度损失。Super采取了一种不同的方法:预训练期间大部分浮点乘加运算都以NVFP4(某机构4位浮点格式)运行。该格式针对Blackwell进行了优化,与FP8相比,显着减少了内存需求并加快了推理速度,同时保持了准确性。
在低精度下进行原生训练意味着模型从第一次梯度更新开始,就学会了在4位算术的约束下保持准确。结果是,尽管运行在显着减少的内存占用上,该模型在数学上仍然是稳定且准确的。
Nemotron 3 Super的训练分为三个连续的阶段,每个阶段都建立在前一个阶段之上。预训练建立了广泛的世界知识和语言理解。监督微调塑造了模型在部署中将遇到的任务类型上的行为。然后,强化学习针对各种智能体环境中的可验证结果来优化这些行为。
Super使用针对某机构Blackwell优化的4位浮点格式NVFP4,在25万亿个令牌上进行预训练。Super不是在事后量化全精度模型,而是从第一次梯度更新开始就以降低的精度进行原生训练——这意味着模型在整个预训练过程中,而不仅仅是在推理时,就学会了在4位算术的约束下保持准确性。预训练语料库包含10万亿个独特的精选令牌,模型在整个运行过程中看到了总计25万亿个令牌,其中包括专注于推理和编码的额外计算。
在强化学习之前,Super在大约700万个SFT样本上进行了监督微调。这些样本来自一个包含4000万个样本的更广泛的后训练语料库,涵盖了推理、指令遵循、编码、安全性和多步智能体任务。这个阶段建立了行为基础,随后由RL进行优化。模型学习了跨任务类型的正确响应的格式和结构,为后续的RL阶段提供了一个稳定的起点,而不是从一个原始的预训练检查点开始优化。
为了使Super与实际智能体行为对齐,模型在NeMo Gym(用于构建和扩展RL训练环境的开源库)中的多样化环境中使用强化学习进行后训练。这些环境评估模型执行一系列动作的能力——生成正确的工具调用、编写功能性代码、产生满足可验证标准的多部分计划——而不仅仅是提供令人满意的单轮响应。这些轨迹构成了使用NeMo RL库进行大规模强化学习的核心训练数据。
这种基于轨迹的强化学习产生了一个在多步工作流程下行为可靠、减少推理漂移并处理智能体管道中常见的结构化操作的模型。
Nemotron 3 Super在多个重要的智能体基准测试中取得了领先的准确性,同时保持了惊人的吞吐量。
Nemotron 3 Nano是在智能体工作流中执行目标明确的单个步骤时实现高准确性的绝佳选择。然而,当多智能体应用升级为复杂的多步活动时,它们需要一个高容量模型来实现卓越的规划和推理能力。例如,一个计算机使用智能体需要在不同模式工具之间做出决策,以创建包含10张高质量幻灯片的演示文稿。
Nemotron 3 Super在此类场景中非常理想。例如,在软件开发中,简单的合并请求可以由Nemotron 3 Nano处理,而需要对代码库有更深理解的复杂编码任务则可以由Nemotron 3 Super处理。而专家级的编码任务则可以由专用模型处理。
Nemotron 3 Super完全开源——包括权重、数据集和配方——因此开发者可以轻松地在自己的基础设施上定制、优化和部署模型,以获得最大的隐私和安全性。
Nemotron 3 Super的完整参数检查点在Hugging Face和通过NVIDIA NIM上提供。某机构Nemotron开放模型许可为企业提供了保持数据控制和在任何地方部署的灵活性。
我们正在发布Nemotron 3 Super的完整训练和评估配方,涵盖了从预训练到对齐的完整流程。这使得开发者能够复现Super的训练过程,为特定领域的变体调整配方,或将其作为自己混合架构研究的起点。
我们为主要的推理引擎构建了即用型手册,包含配置模板、性能调优指南和参考脚本。
探索我们的Nemotron 3 Super定制化手册,以高效地为您的领域进行微调(LoRA/SFT),或提升其智能体推理能力(GRPO/DAPO)。
Nemotron 3 Super构建在一个完全开放、端到端的数据管道上,涵盖了预训练、后训练和交互式强化学习——为开发者提供了构建智能体AI的可复现基础模块。
某机构发布了开发技术和工具,使研究人员和企业可以灵活地定制Nemotron 3 Super或构建自己的推理模型。所有配方都与GitHub仓库、NeMo Gym、NeMo RL、NeMo Data Designer、NeMo Curator和NeMo Evaluator集成——提供了一个从数据到部署的完整、可复现的管道。
所有Nemotron模型都采用开放评估方式发布,包括一个已发布的评估配方,使任何人都能重新运行和检查Nemotron 3 Super的完整评估流程。
Nemotron 3 Super现已上线。在领先的推理平台上可用,并打包为NVIDIA NIM,Super可以在从工作站到云端的任何地方运行。通过Pro订阅在Perplexity上试用,或通过API、OpenRouter或build.nvidia.com访问。
从Hugging Face下载权重,通过NVIDIA NIM启动优化实例,使用Unsloth进行微调,或从手册开始,几分钟内即可运行。
Super还可通过多家云服务提供商和AI平台获取。
请查看我们的GitHub仓库,其中包含OpenCode、OpenHands和OpenClaw等平台的入门指南。
有关完整的技术细节,请阅读Nemotron 3 Super技术报告。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。