photo by DALL·E3
Meta在4月6日推出地表评分第一开源模型Llama 4以来争议不断(上新|Meta“三驾马车”震撼登场:开源发布Llama 4多模态大模型),虽然今天官方否定了之前流传的种种指责(碎语|最快打脸,Llama 4夺榜单开源大模型第一后被爆造假),但是热点已经被英伟达推出的更强的Llama Nemotron 253B大模型转移。
这款基于Llama 3.1 405B微调的超大模型,不仅在多项推理基准中登顶准确率排行榜,更以“半参数挑战王者”的姿态,直逼DeepSeek-R1,成为目前开源领域的推理天花板!
与DeepSeek-R1的671B参数相比,Nemotron Ultra仅253B,却实现了高达4倍的吞吐提升。在AIME、GPQA Diamond、LiveCodeBench等高难度任务中,Nemotron全面领先,刷新SOTA记录。
不仅如此,它还能在单个8xH100节点上流畅运行,真正做到了高性能与高效率兼得。
Nemotron系列的独门秘籍是推理控制系统提示词:用户只需切换提示词,即可自由控制模型在“推理模式”与“常规模式”之间切换,打破了传统LLM推理过程中的最大障碍。这种灵活机制让它在聊天、编程、数学、科学等多任务场景下游刃有余,适配企业级智能体部署需求。
Nemotron的强大,得益于NVIDIA NeMo框架支撑的神经架构搜索(NAS)+知识蒸馏+强化学习三阶段后训练流程:第一阶段压缩体积保留核心能力;第二阶段用高质量合成数据微调推理能力;第三阶段通过RLHF进一步对齐用户意图与函数调用。
这套完整体系,不仅打造出最强推理表现,也确保模型支持商用级稳定性和成本控制。
英伟达这次放出的不仅是一个模型,更是一整套对未来智能体工作流的设计思路。它明确回应了当前行业两大痛点:算力贵?但我能让你1/2参数干出4倍效果;推理强?但我能让你随时开关、因需而动。
相比之下,OpenAI的Llama 4、DeepSeek的R1,虽然各有所长,但在“高性能+高吞吐+灵活推理”的“不可能三角”综合平衡上,Nemotron显然更胜一筹。
在我看来,这不仅是英伟达在大模型竞赛中的一次漂亮反击,也为整个开源推理模型设定了新标准。未来谁能跑得快不重要,谁能跑得稳、跑得省、跑得灵活,才是真正的赢家。
photo by DALL·E3
本文写于2025年4月9日
连续日更的第373天,第398篇
⬆️关注我,一起在AI前沿探索⬆️
领取专属 10元无门槛券
私享最新 技术干货