上新｜英伟达发布开源最强推理模型，Llama 4上线三天争议未平已被超越

文章来源：企鹅号 - AI生活家

photo by DALL·E3

Meta在4月6日推出地表评分第一开源模型Llama 4以来争议不断（上新｜Meta“三驾马车”震撼登场：开源发布Llama 4多模态大模型），虽然今天官方否定了之前流传的种种指责（碎语｜最快打脸，Llama 4夺榜单开源大模型第一后被爆造假），但是热点已经被英伟达推出的更强的Llama Nemotron 253B大模型转移。

这款基于Llama 3.1 405B微调的超大模型，不仅在多项推理基准中登顶准确率排行榜，更以“半参数挑战王者”的姿态，直逼DeepSeek-R1，成为目前开源领域的推理天花板！

与DeepSeek-R1的671B参数相比，Nemotron Ultra仅253B，却实现了高达4倍的吞吐提升。在AIME、GPQA Diamond、LiveCodeBench等高难度任务中，Nemotron全面领先，刷新SOTA记录。

不仅如此，它还能在单个8xH100节点上流畅运行，真正做到了高性能与高效率兼得。

Nemotron系列的独门秘籍是推理控制系统提示词：用户只需切换提示词，即可自由控制模型在“推理模式”与“常规模式”之间切换，打破了传统LLM推理过程中的最大障碍。这种灵活机制让它在聊天、编程、数学、科学等多任务场景下游刃有余，适配企业级智能体部署需求。

Nemotron的强大，得益于NVIDIA NeMo框架支撑的神经架构搜索（NAS）+知识蒸馏+强化学习三阶段后训练流程：第一阶段压缩体积保留核心能力；第二阶段用高质量合成数据微调推理能力；第三阶段通过RLHF进一步对齐用户意图与函数调用。

这套完整体系，不仅打造出最强推理表现，也确保模型支持商用级稳定性和成本控制。

英伟达这次放出的不仅是一个模型，更是一整套对未来智能体工作流的设计思路。它明确回应了当前行业两大痛点：算力贵？但我能让你1/2参数干出4倍效果；推理强？但我能让你随时开关、因需而动。

相比之下，OpenAI的Llama 4、DeepSeek的R1，虽然各有所长，但在“高性能+高吞吐+灵活推理”的“不可能三角”综合平衡上，Nemotron显然更胜一筹。

在我看来，这不仅是英伟达在大模型竞赛中的一次漂亮反击，也为整个开源推理模型设定了新标准。未来谁能跑得快不重要，谁能跑得稳、跑得省、跑得灵活，才是真正的赢家。

photo by DALL·E3

本文写于2025年4月9日

连续日更的第373天，第398篇

⬆️关注我，一起在AI前沿探索⬆️

发表于: 2025-04-092025-04-09 22:53:04
原文链接：https://page.om.qq.com/page/O8I3YkZUxkfmM2aHaueq9m-A0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

上新｜英伟达发布开源最强推理模型，Llama 4上线三天争议未平已被超越

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐