2026年3月10日,英伟达正式发布Nemotron 3 Super,这是一款搭载1200亿参数的混合专家(Mixture-of-Experts, MoE)模型,专门针对agentic AI(智能体)工作负载量身打造。
该模型采用创新混合Mamba-Transformer架构,在推理过程中仅激活约120亿参数,此举不仅能稳定维持高性能水平,还能大幅降低AI服务的部署与运行成本,相较于同等参数规模的稠密模型具有显著竞争优势。
作为Nemotron 3系列的核心升级款,Nemotron 3 Super是该系列中首款全面整合LatentMoE(潜在专家混合)、Multi-Token Prediction(多token预测)层及NVFP4预训练技术的旗舰模型。
这一核心技术组合,极大提升了模型的推理准确性与运行速度。依托创新混合架构,该模型相较前代产品实现了最高5倍的吞吐量提升与最高2倍的准确率优化;更值得关注的是,其原生支持最长达100万token的上下文窗口,能够高效处理超长文档解析、复杂多步推理等挑战性任务,打破了传统大模型的上下文长度限制。
为降低开发者应用门槛,英伟达为该模型提供了多格式检查点支持,涵盖经过后训练的版本、量化版本以及基础版本,全面兼容NVFP4、FP8和BF16三种精度。同时,英伟达公开了相应的训练数据集、模型训练配方(recipes)以及相关基础设施,整个Nemotron 3计划更是涵盖了超过10万亿token的预训练与后训练数据,并内置用于后训练的专属强化学习环境,为开发者提供端到端技术支撑。
英伟达明确将Nemotron 3 Super定位于协作式智能体与高吞吐量AI场景,重点强调该模型在软件开发、长文档分析以及工具调用等核心任务中表现突出,尤其适配需要多个智能体协同联动、完成复杂目标的企业级应用场景。
总体而言,Nemotron 3 Super凭借创新混合MoE架构与高效训练技术的双重优势,为构建高性能、低成本的agentic AI系统提供了强大且开放的技术基础设施,进一步加速了开源大模型在实际生产环境中的落地应用,为AI智能体的规模化部署奠定了坚实基础。