2.引入冷启动数据的RL模型DeepSeek-R1尽管DeepSeek-R1-Zero取得了优异的性能,但也存在着输出可读性差、语言混用等问题。...这些数据引入了人类先验,规定了推理过程和答案的输出格式,以提高可读性。(2)推理导向的RL阶段: 类似R1-Zero,在冷启动模型上进行大规模RL训练。...RL训练一直进行到在推理任务上收敛。(3)拒绝采样和有监督微调阶段:使用RL收敛后的模型,通过拒绝采样的方式生成新的SFT数据。...推理相关数据沿用规则奖励,其他数据则采用奖励模型。结合多种奖励信号和数据分布,使模型在保持推理能力的同时兼顾通用性、安全性和可用性。...这些RL实践相互配合,支撑起了DeepSeek-R1卓越的推理表现。当然,RL在该领域的应用还有很大的探索空间,如奖励函数的设计、样本效率的提高、推理和通用目标的平衡等。