首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【LLM大模型】DeepSeek-R1论文讲解

一.大模型基础

什么大模型?

由Y=F(X)    ,由输入X得到输出Y ,中间的算法过程F就是模型

例如Y=aX+b ,通过大量数据训练确定参数a和b 的值

通常F是非常复杂的数学结构

大模型训练三步大模型训练三步走

二.DeepSeek-R1论文

标题:DeepSeek-R1:通过强化学习激发 LLM 中的推理能力

评估榜

AIME 2024  美国高中数学竞赛题评估集

过往研究简介

Deepseek训练策略

DeepSeek-R1-Zero 实验版本 ,DeepSeek-R1最终版本

方法

方法

概述

强化学习算法

强化学习算法

传统的强化学习

群体相对策略优化(GRPO)例子

奖励模型

训练模板

DeepSeek-R1-Zero 的性能、自进化过程和啊哈时刻(顿悟时刻)

DeepSeek-R1-Zero 的性能

图 2 展示了 DeepSeek-R1-Zero 在 RL 训练过程中于 AIME 2024 基准测试中的性能轨迹。

随着训练的推进,模型性能稳步提升,AIME 2024 的分数提高至 71.0%,达到与 OpenAI-o1-0912 相当的水平。

DeepSeek-R1-Zero 的性能提升至 86.7%,超越了 OpenAI-o1-0912。

图 2 |DeepSeek-R1-Zero 在训练期间的 AIME 准确性。

对于每个问题,抽样 16 个回答并计算总体平均准确性,以确保评估稳定。

DeepSeek-R1-Zero 的自我进化

DeepSeek-R1-Zero 的自我进化过程展示了 RL 如何驱动模型自主提升推理能力。通过直接从基础模型启动 RL,我们能够密切监控模型的进展,而无需依赖监督微调。

•        思考时间的改进(图 3):

模型在训练过程中逐渐学会用更多时间解决复杂推理任务,生成数百到数千个推理标记,以深入探索和完善其思维过程。

•        自发行为

诸如反思(重新评估先前步骤)和探索替代解决方案等复杂行为自发出现,显著增强了模型的推理能力。

图 3 |RL 过程中 DeepSeek-R1-Zero 在训练集上的平均响应长度。DeepSeek-R1-Zero 自然而然地学会了用更多的思考时间来解决推理任务。

DeepSeek-R1-Zero 的“顿悟时刻”

在训练过程中,模型经历了一个“顿悟时刻”(表 3),学会为问题分配更多思考时间并重新评估初始方法。这一现象不仅展示了模型推理能力的提升,也体现了 RL 驱动下模型自主开发高级问题解决策略的能力。

表 3 |DeepSeek-R1-Zero 中间版本的一个有趣的“顿悟时刻”。该模型学会使用拟人化的语气重新思考。

这对我们来说也是一个顿悟的时刻,让我们见证了强化学习的力量和美丽。

DeepSeek-R1-Zero 的缺点

尽管表现出色,DeepSeek-R1-Zero 仍面临一些挑战:

•        可读性差:推理过程的可读性有待提升。

•        语言混合:模型在处理混合语言时表现不佳。

为解决这些问题,我们探索了 DeepSeek-R1,一种结合 RL 和人类友好型冷启动数据的方法,以提升推理过程的可读性并与开放社区共享。

DeepSeek-R1:使用冷启动进行强化学习

训练管道四阶段

一、冷启动

二、面向推理的强化学习

三、抑制采样和监督微调

四、二级强化学习阶段:模型与人类偏好对齐

蒸馏:赋予小模型推理能力

公榜评估

蒸馏与 强化学习的性能比较

失败的实验

总结

——The  End——

记得点赞、分享,让更多的朋友一起探索这个IT世界的新篇章!

AIGC周边正在发布,关注生活,冻龄青春

推荐阅读

【LLM大模型】大语言模型改版:如何用好推理型大语言模型DeepSeek

【LLM大模型】DeepSeek零门槛三步极速部署指南,注册秒过,对话零延迟!

【大模型】手把手教你在本地部署DeepSeek R1,并集成到Dify中

【大模型】大模型部署的主流技术有哪些?

【大模型】2025新年最新deepseek进阶使用指南,一个提示词去除deepseek AI感

【大模型】手把手教你在本地部署DeepSeek R1,并集成到Dify中

【LLM大模型】DeepSeek零门槛三步极速部署指南,注册秒过,对话零延迟!

【大模型】Meditron:基于 Llama 完全开源的医学大语言模型 性能优于所有开源模型

【大模型】微调训练框架之选:LLaMA-Factory、Unsloth 和 Hugging Face Transformers

【大模型】开源中文医疗大模型(18+)概览

【NAS】绿联NAS打造学习神器,这些用法你Get了吗?

【NAS】把B站「搬」进绿联NAS影视中心!自动同步,不怕和谐

【NAS】轻松搞定绿联UGOS系统的Docker远程访问!

【数字人】 天工人巧日争新:生成你的数字人分身(3)走向元宇宙飞升:MetaHuman三步构建数字人模型

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OxOhIlY1JXUOlj1LGOhrImBA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券