NVIDIA 正式发布了 Llama Nemotron 模型家族,这是一组专为推理与智能体任务优化的模型。它们基于开源的 Meta Llama 模型,结合深度蒸馏和强化训练,兼顾体积、准确率与推理性能。模型及参数规格见下表:
模型 | 参数量 | 核心特性 |
---|---|---|
Nano | 8B | 从Llama 3.1 8B微调 |
Super | 49B | 从Llama 3.3 70B蒸馏 |
Ultra | 253B | 从Llama 3.1 405B蒸馏 |
模型后训练过程如下:
使用评价:Ultra从llama3.1 405B蒸馏而来,虽然参数量只有253B,但因为不是混合专家结构,推理性能远高于DeepSeek R1。llama4、nvidia nemotron并没有多么震撼,美国AI能力也不过如此,攻守易型了。
论文地址:Puzzle: Distillation-Based NAS for Inference-Optimized LLMs · 魔搭社区
搜索步骤如下:
一种在推理阶段临时增加计算资源以提升模型性能的技术,特别适用于需要深入思考的复杂问题。Nemotron 模型支持通过 系统提示词 切换“推理模式开/关”,这让用户可以根据任务场景权衡性能与成本。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。