首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

上新|英伟达发布开源最强推理模型,Llama 4上线三天争议未平已被超越

photo by DALL·E3

Meta在4月6日推出地表评分第一开源模型Llama 4以来争议不断(上新|Meta“三驾马车”震撼登场:开源发布Llama 4多模态大模型),虽然今天官方否定了之前流传的种种指责(碎语|最快打脸,Llama 4夺榜单开源大模型第一后被爆造假),但是热点已经被英伟达推出的更强的Llama Nemotron 253B大模型转移。

这款基于Llama 3.1 405B微调的超大模型,不仅在多项推理基准中登顶准确率排行榜,更以“半参数挑战王者”的姿态,直逼DeepSeek-R1,成为目前开源领域的推理天花板!

与DeepSeek-R1的671B参数相比,Nemotron Ultra仅253B,却实现了高达4倍的吞吐提升。在AIME、GPQA Diamond、LiveCodeBench等高难度任务中,Nemotron全面领先,刷新SOTA记录。

不仅如此,它还能在单个8xH100节点上流畅运行,真正做到了高性能与高效率兼得。

Nemotron系列的独门秘籍是推理控制系统提示词:用户只需切换提示词,即可自由控制模型在“推理模式”与“常规模式”之间切换,打破了传统LLM推理过程中的最大障碍。这种灵活机制让它在聊天、编程、数学、科学等多任务场景下游刃有余,适配企业级智能体部署需求。

Nemotron的强大,得益于NVIDIA NeMo框架支撑的神经架构搜索(NAS)+知识蒸馏+强化学习三阶段后训练流程:第一阶段压缩体积保留核心能力;第二阶段用高质量合成数据微调推理能力;第三阶段通过RLHF进一步对齐用户意图与函数调用。

这套完整体系,不仅打造出最强推理表现,也确保模型支持商用级稳定性和成本控制。

英伟达这次放出的不仅是一个模型,更是一整套对未来智能体工作流的设计思路。它明确回应了当前行业两大痛点:算力贵?但我能让你1/2参数干出4倍效果;推理强?但我能让你随时开关、因需而动。

相比之下,OpenAI的Llama 4、DeepSeek的R1,虽然各有所长,但在“高性能+高吞吐+灵活推理”的“不可能三角”综合平衡上,Nemotron显然更胜一筹。

在我看来,这不仅是英伟达在大模型竞赛中的一次漂亮反击,也为整个开源推理模型设定了新标准。未来谁能跑得快不重要,谁能跑得稳、跑得省、跑得灵活,才是真正的赢家。

photo by DALL·E3

本文写于2025年4月9日

连续日更的第373天,第398篇

⬆️关注我,一起在AI前沿探索⬆️

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O8I3YkZUxkfmM2aHaueq9m-A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券