首页
学习
活动
专区
圈层
工具
发布

英伟达推出OpenReasoning-Nemotron模型,数学科学推理能力超越o3

最近,英伟达公司推出了一款新的OpenReasoning-Nemotron模型,该模型基于Qwen2.5架构,利用DeepSeek-R1-0528生成的数据,专为数学、科学和代码任务而设计。这款模型在多个基准测试中表现出色,超越了o3,成为当前最强蒸馏推理模型之一。

该模型提供了四种参数规模选择:1.5B、7B、14B和32B,可以在本地100%运行。与以往的模型相比,OpenReasoning-Nemotron采用了更强大的GenSelect算法进行训练,不仅进行token预测,而且实现了真正的推理能力。这使得模型在数学、代码和科学推理方面取得了显著进步。

值得一提的是,OpenReasoning-Nemotron模型在处理不同参数规模时表现出不同的特点。较小规模的1.5B模型在一些基准测试中得分略有下降,而更大规模的7B模型却取得了近20%的性能提升。研究人员认为,这可能是因为较小规模模型在处理更长文本时缺乏一致性,而更大规模的模型能够更好地处理复杂推理任务。

同时,研究人员还发现了有趣的现象,即模型学会了两种不同的行为。通过混合旧的TIR数据和新的CoT样本进行训练,模型在学会如何使用Python的同时,推理能力也得到了提升。然而,模型在不同行为之间的过渡仍存在挑战,这为未来探索在线强化学习提供了新的思路。

总的来说,英伟达的OpenReasoning-Nemotron模型在数学、科学和代码推理领域引起了广泛关注。其超强的推理能力与泛化能力为今后推理模型的发展指明了新的方向。随着技术的不断进步和优化,相信这些模型将在未来取得更加卓越的成就。

以上就是新智元报道的内容,更多详情请关注英伟达的官方发布和相关资料。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O6sSErBfSlXmLK-tFqstj4ag0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券