部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练

左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练

原创
作者头像
立委
发布2025-02-28 05:18:59
发布2025-02-28 05:18:59
740
举报
文章被收录于专栏:deepseek腾讯云TVP

交替使用监督微调(SFT)与强化学习(RL)的策略探讨

在大模型后训练中,像deepseek R1那样交替使用监督微调(SFT)和强化学习(RL),而非单一依赖 RL 或蒸馏,背后的核心逻辑如下。


1. 交替使用 SFT 和 RL 的根本动因

(1) 训练稳定性与策略纠偏
  • RL 的脆弱性 强化学习高度依赖奖励函数设计,但在现实任务中,奖励信号往往稀疏(例如数学推理任务中仅有最终答案正确性的反馈)或含有噪声(如人类反馈存在标注误差)。如果长期仅依靠 RL,模型可能陷入局部最优,生成虽能获得高奖励却逻辑混乱的答案。
  • SFT 的锚定作用 定期引入 SFT 训练,通过高质量数据(如人工修正的思维链或模型“拒绝采样”而过滤的思维链)校正模型生成分布,可以有效防止 RL 阶段过度偏离合理路径。例如,DeepSeek-R1 在第二阶段 RL 后,通过 SFT 数据,成功修复了模型在复杂不等式推导中出现的符号错误。

(2) 数据效率与知识复用
  • RL 的数据饥渴性 生成有效的 RL 训练数据(如通过模型自身采样获得的推理轨迹)成本极高。以 Open-R1 项目为例,每天需用 512 块 H100 GPU 生成 18 万条轨迹,其中只有约 30% 能通过数学验证。【依据细节待查验】
  • SFT 的快速收敛优势 在关键能力瓶颈期(例如模型无法处理多步逻辑组合时),直接注入少量精标的 SFT 数据(如 5000 条人工编写的分步解析)能迅速突破性能瓶颈,避免 RL 长时间的探索过程。R1第一步的冷启动即是如此。

(3) 防止灾难性遗忘
  • RL 的窄化效应 当 RL 过度优化特定任务(如数学证明)时,模型可能会牺牲其他能力(例如常识推理)。有研究表明,纯 RL 训练的模型在 MATH 数据集上准确率提升了 5%,但在 TruthfulQA 上真实性得分下降了 8%。【依据细节待查验】
  • SFT 的全域校准 通过混合多领域 SFT 数据(例如同时包含数学题和事实核查问答),可以有效维持模型的通用性。DeepSeek-R1 第三阶段的混合数据微调正是基于这一设计理念。


2. 为何不持续使用 RL 或仅用蒸馏?

(1) RL 的固有局限性
  • 奖励假设的不可靠性 RL 假设奖励函数能够完全表征任务目标,但在复杂任务中,这一假设几乎难以成立。例如,代码生成任务若仅以单元测试通过率作为奖励,模型可能生成通过测试但存在安全漏洞(如缓冲区溢出)的代码。
  • 策略坍塌风险 长期 RL 训练可能导致模型策略多样性丧失。在对话任务中,模型可能反复生成高奖励但公式化、缺乏创意的回答,从而损害用户体验。

(2) 蒸馏的适用边界
  • 表达能力损失 蒸馏通过模仿教师模型的输出分布实现知识迁移,但这种方式往往会丢失隐式推理能力。例如,DeepSeek-R1-Zero 的蒸馏版本在多跳推理的 MATH 题目上性能较原模型下降了约 12%。【依据细节待查验】
  • 教师依赖陷阱 蒸馏效果受限于教师模型的整体质量。如果教师模型存在系统性错误(如物理常识错误),学生模型难以自主纠正,而 RL 能够利用环境反馈及时修正此类错误。


3. 交替循环的深层价值

(1) 螺旋式能力进化
  • SFT → RL 的递进 SFT 阶段提供了基本能力的锚点,RL 则在此基础上探索更优策略。例如,模型在 SFT 阶段学会标准数学符号的使用,随后通过 RL 发现了更简洁高效的路径。
  • RL → SFT 的修正 RL 阶段暴露出的不足(如过度简化关键步骤)可以通过新一轮 SFT 注入数据进行修正。这种交替循环类似于人类“学习-实践-反思”的认知过程。

(2) 多目标动态平衡
  • 性能与安全性的博弈 纯 RL 可能为追求高得分而牺牲安全性,例如生成偏激或不当内容。而定期使用 SFT 注入经过伦理审查的数据,可以动态约束模型输出,确保既有高性能又符合安全规范。
  • 通用与专用的适配 交替训练使得模型既能通过 SFT 保持广泛适用性(如客服对话),又能通过 RL 深耕垂直场景(如医疗诊断中的检查项推荐),从而在多种任务上均表现出色。


总结:交替策略的系统性优势
  • 风险控制:通过 SFT 定期校准,规避了 RL 训练过程中可能出现的失控风险。
  • 资源优化:在 RL 数据生成成本与 SFT 标注成本之间取得了良好的平衡。
  • 能力完备性:既兼顾了 SFT 的模仿学习规范性,又融合了 RL 的探索学习创造性,最终实现了模型能力的稳健提升。

这种交替策略实际上是将“定向引导”与“自由探索”相结合,既避免了纯 RL 的“野蛮生长”,也超越了纯 SFT 的“照本宣科”,最终实现了模型综合能力的全面进化。同时,尽管蒸馏在某些场景下(如移动端轻量化)有其独特优势,但它并不能替代这种系统性的优化路径。

【相关】

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 交替使用监督微调(SFT)与强化学习(RL)的策略探讨
    • 1. 交替使用 SFT 和 RL 的根本动因
      • (1) 训练稳定性与策略纠偏
      • (2) 数据效率与知识复用
      • (3) 防止灾难性遗忘
    • 2. 为何不持续使用 RL 或仅用蒸馏?
      • (1) RL 的固有局限性
      • (2) 蒸馏的适用边界
    • 3. 交替循环的深层价值
      • (1) 螺旋式能力进化
      • (2) 多目标动态平衡
    • 总结:交替策略的系统性优势
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档