首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Nvidia Nemotron核心技术揭秘

Nvidia Nemotron核心技术揭秘

原创
作者头像
aaronwjzhao
修改2025-04-09 18:09:52
修改2025-04-09 18:09:52
2441
举报
文章被收录于专栏:AI工程落地AI工程落地

Nemotron介绍

NVIDIA 正式发布了 Llama Nemotron 模型家族,这是一组专为推理与智能体任务优化的模型。它们基于开源的 Meta Llama 模型,结合深度蒸馏和强化训练,兼顾体积、准确率与推理性能。模型及参数规格见下表:

模型

参数量

核心特性

Nano

8B

从Llama 3.1 8B微调

Super

49B

从Llama 3.3 70B蒸馏

Ultra

253B

从Llama 3.1 405B蒸馏

模型后训练过程如下:

Nemotron Ultra后训练流程
Nemotron Ultra后训练流程
  1. 蒸馏+神经架构搜索(NAS):使用Puzzle框架进行NAS和知识蒸馏
  2. 有监督微调:覆盖推理开关模式(Reasoning ON/OFF)、重点优化 Chat、Code、Math、Function Calling 等能力
  3. 强化学习:使用 REINFORCE 算法 + 启发式验证器 对指令执行与工具调用能力进行优化、使用 RLHF(人类反馈强化学习) 通过 HelpSteer2 数据集对聊天能力进行最终对齐

使用评价:Ultra从llama3.1 405B蒸馏而来,虽然参数量只有253B,但因为不是混合专家结构,推理性能远高于DeepSeek R1。llama4、nvidia nemotron并没有多么震撼,美国AI能力也不过如此,攻守易型了。

神经架构搜索Puzzle

论文地址:Puzzle: Distillation-Based NAS for Inference-Optimized LLMs · 魔搭社区

搜索步骤如下:

  1. block-wise local distillation方法:确定搜索空间,使用blockwise local distillation方法将模型划分成不同的子块,可以配置不同的优化等级。并行的对每个子块训练
  2. Mixed-Integer-Programming算法:根据内存大小、延迟、吞吐量等约束条件,在搜索空间内,对每个子块的替代评分。
  3. Global Knowledge Distillation:基于teacher模型对重新组装的模型蒸馏。
Puzzle框架
Puzzle框架

Test-Time Scaling

一种在推理阶段临时增加计算资源以提升模型性能的技术,特别适用于需要深入思考的复杂问题。Nemotron 模型支持通过 系统提示词 切换“推理模式开/关”,这让用户可以根据任务场景权衡性能与成本。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Nemotron介绍
  • 神经架构搜索Puzzle
  • Test-Time Scaling
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档