在2025年初,当DeepSeek-AI团队发布了开源推理大模型R1时,开源AI社区迎来了一个振奋人心的时刻。这个被视为OpenAI的o1模型开源替代品的R1,展示了优秀的推理能力,但也留下了一个关键问题:如何从零开始训练这样的模型?虽然许多研究人员已经证明可以通过直接蒸馏(distillation)方法复制这些模型的能力,但持续依赖现有模型(如R1)依然是推动该领域发展的一个关键限制。
这篇由延世大学和LG AI研究院合作完成的研究"One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL"(开源推理模型的缺失拼图:一个缓解短思维链大语言模型在强化学习中冷启动的数据集)正是针对这一挑战提出了解决方案。研究由Hyungjoo Chae、Dongjin Kang、Jihyuk Kim等人共同完成,并于2025年6月发布在arXiv预印平台上。
如果我们把训练推理大模型比作烹饪一道复杂的料理,那么现在的情况就像是我们只有别人做好的成品,却没有详细的食谱。虽然我们可以尝试通过品尝和观察来模仿这道料理,但如果能有一份完整的食谱,我们就能真正掌握制作的精髓。这项研究就是在尝试提供这样一份"食谱",告诉我们如何从基础开始构建推理大模型。
当前的开源推理大模型如R1之所以强大,是因为它们经历了两个关键阶段的训练:首先通过监督微调(SFT)学习长链思维(Long Chain-of-Thought,简称Long CoT)的推理能力,然后通过强化学习进一步提升推理准确性。然而,第一阶段使用的数据集——也就是包含长链思维的高质量数据——一直是个谜。研究人员们发现,如果没有这样的数据集进行冷启动,直接进入强化学习阶段会导致训练不稳定。
这就像是教一个孩子解决复杂的数学问题:如果一开始就让他尝试最难的题目而没有任何基础训练,孩子很可能会感到困惑和挫折。我们需要先教会孩子基本的思考步骤和解题策略,然后他才能逐渐挑战更复杂的问题。同样,大语言模型也需要先学习如何进行长链思维推理,才能在之后的强化学习中取得良好的效果。
这项研究的核心贡献在于,作者团队探索了是否可以使用短思维链大语言模型(即普通的、没有经过特殊训练的大语言模型)来构建长思维链数据集。他们设计了一个简单而有效的管道,利用少量来自推理大模型的示例作为引导,帮助普通大语言模型(如GPT-4o)生成长思维链推理。这种方法不仅创新,而且具有高度的开放性和可控性。
更令人惊喜的是,研究团队的实验结果表明,用这种方法构建的数据集在质量上几乎媲美R1模型生成的数据,且在后续的强化学习阶段带来了2-3倍的性能提升。这就像是我们不仅成功复制了大厨的食谱,而且用这个食谱烹饪出的料理几乎和大厨的作品一样美味!
接下来,让我们一起深入了解这项研究是如何构建"Long CoT Collection"(长思维链集合)数据集的,以及这个数据集如何帮助解决推理大模型训练中的冷启动问题。
一、推理大模型的现状与挑战
在当前的AI领域,推理大模型(如OpenAI的o系列)展现了令人印象深刻的推理能力,特别是在测试时通过生成极长的思维链来解决复杂问题。然而,这些模型大多是闭源的,这带来了两个主要问题:高昂的API使用成本和潜在的安全隐患限制了它们在实际应用中的使用,而闭源的特性也可能阻碍学术界在这一领域的进步。
为了解决这些问题,DeepSeek-AI等团队发布了开源版本的o1,即R1模型,并详细介绍了构建该模型的方法。虽然可验证奖励的强化学习(RLVR)的好处已经在以前的研究中得到证明,但他们引入了一个关键创新:解决了短思维链大语言模型在强化学习训练中的冷启动不稳定性问题。通过在精心策划的长思维链数据集上进行微调,显式教授推理结构,作为强化学习前的关键步骤,帮助模型获得基础推理技能。
基于这一见解,随后的研究表明,仅仅收集R1的输出来构建长思维链数据集并对大语言模型进行微调,就可以带来显著的改进。然而,尽管有这些进展,冷启动问题本身并未被完全解密。虽然R1的长思维链数据集是一个关键组成部分,但创建此类数据的确切机制仍然不清楚。
这就像是我们知道一种特效药的配方中需要一味关键的草药,但我们不知道这味草药从哪里来,也不知道如何培育它。在这项研究中,作者们探索了是否可以从只产生简短思维链的大语言模型中构建长思维链数据。这是一个关键的创新点,因为如果成功,这将为社区提供一种从零开始构建推理大模型的方法,而不必依赖现有的推理大模型。
想象一下,这就像是我们尝试教会一个只会写短句子的学生写长篇大论。传统方法是让学生模仿已经会写长篇大论的专家,但这项研究提出了一个新思路:通过提供一些写作框架和指导原则,即使是只会写短句子的学生,也能逐步学会如何组织和展开长篇大论。这种方法的优势在于,它不依赖于已有的长篇写作专家,使得技能的传递更加开放和可控。
二、构建Long CoT Collection数据集的创新方法
研究团队开发了一个简单而有效的管道,使短思维链大语言模型能够以分步方式生成长思维链,只需要来自推理大模型的少量指导。整个数据集构建过程可以分为两个主要阶段:收集教师示范和通过间接指导从教师那里注释长思维链。
首先,研究团队收集了一个包含1000个示例的种子数据集,这些示例捕捉了o1模型的推理流程,反映了其新颖的推理策略。推理流程(Reasoning Flow)是推理过程的概述,由一系列推理步骤的大纲组成,包含了从初始问题理解到最终结论的逻辑步骤流程。研究人员从ChatGPT网站收集了这些参考推理流程,使用来自magpie-reasoning-V1数据集的1000个推理重点指令。此外,他们还通过计算总完成令牌数与返回响应中令牌数之间的差异,收集了o1的思维预算(即使用的思维令牌数量)。
有了这1000个种子数据集作为基础,研究团队将其扩展到10万个数据点。由于短思维链大语言模型在延长测试时计算中难以保持连贯性,他们将推理分解为三个步骤,以实现长思维链推理的分步生成。
首先是推理流程检索。对于新问题,他们动态地从种子数据集中检索示范(问题、参考推理流程、参考思维预算),通过上下文学习教大语言模型生成推理流程。检索考虑两个方面:领域匹配(同一或相似领域的问题很可能共享共同的推理过程)和思维预算控制(通过检索长度相似的推理流程进行示范来控制思维预算)。
接下来是推理流程生成。检索到的示范教会大语言模型(在实验中是GPT-4o)在更高层次上想象推理大模型的推理行为。没有示范的话,研究团队发现大语言模型只会坚持线性思维过程,推理按一个方向进行,不包括验证和探索多种解决方案等推理大模型的新颖推理策略。大语言模型在新问题上生成推理流程,首先预测预期的大纲数量,然后生成一系列推理大纲,模拟在检索到的示范中观察到的高层次推理模式。
最后是基于推理流程的分步长思维链生成。使用生成的推理流程作为指导,大语言模型逐步生成长思维链推理。具体来说,对于推理流程中的每个步骤,大语言模型基于给定的前一个推理、当前流程步骤和下一个流程步骤生成推理。当所有总结步骤都用完后,大语言模型基于推理生成最终解决方案。最后,将推理步骤和最终答案作为一个序列聚合起来。
随后,研究团队还进行了正确性过滤,剔除导致错误答案的推理,因为训练错误的推理可能会损害模型原有的推理能力。具体来说,他们简单地要求GPT-4o根据参考答案和生成的答案范围验证答案。这一过滤过程最终保留了76%的正确答案预测实例。
这种方法就像是教一个学生如何系统地解决复杂问题。首先,我们向学生展示一些解题的框架和策略(种子数据集);然后,当面对新问题时,学生先找到类似的问题和解题策略(推理流程检索);接着,学生根据这些策略制定自己的解题计划(推理流程生成);最后,学生按照计划一步步解决问题,并在过程中不断检查和调整(分步长思维链生成)。这种方法的优势在于,它不仅教会了学生"如何做",更重要的是教会了学生"如何思考"。
三、数据集质量分析与评估
研究团队对构建的Long CoT Collection数据集进行了深入分析,重点关注三个重要方面:推理流程(解决方案过程中步骤的逻辑进展和连贯性)、推理策略(用于分解和解决问题的具体技术和方法)以及正确性(每个推理步骤的准确性)。
为了进行公平比较,研究团队从Long CoT Collection中抽取了100个问题,这些问题通过R1生成的解决方案都有正确答案。他们使用当前最先进的推理大模型o3-mini作为评估者。结果表明,Long CoT Collection中的推理展示了更好的推理流程,尽管在策略和正确性方面略显薄弱,但仍然具有竞争力。
特别值得注意的是,生成的推理中包含丰富的推理触发器(如"等等"和"验证一下"),这些触发器有助于探索多样化的推理路径并提高准确性。这些短语不仅仅是格式元素,也是关键词,可以引导模型的推理过程,有效地引导它走向更结构化和彻底的问题解决。例如,当模型遇到"等等,让我验证一下"这样的触发器时,它会停下来重新审视之前的推理,这类似于人类在解决复杂问题时的自我纠错和验证过程。
在思维预算分配方面,研究团队分析了推理长度,并将其与其他推理大模型和GPT-4o(构建数据集时使用的大语言模型)进行了比较。研究表明,对GPT-4o的简单思维链提示很少生成超过1000个令牌的推理,这表明通过简单提示GPT-4o很难用于构建长思维链数据集。此外,R1使用的思维令牌明显多于o1-mini,这导致在对其输出进行训练时出现过度思考问题。
这就像是比较不同学生解决同一数学问题的方法。有些学生(如R1)可能会非常详细地写出每一个步骤,甚至包括一些不必要的中间计算;而其他学生(如o1-mini)则可能更加简洁,只写出关键步骤和转折点。研究团队发现,他们构建的数据集在详细程度上达到了一个良好的平衡点,既包含了足够的推理步骤以展示完整的思考过程,又避免了过度冗长导致的效率问题。
四、Long CoT Collection数据集的实际效果
研究团队通过一系列实验,从两个角度评估了训练大语言模型使用他们的数据集的影响:作为强化学习的可靠起点以及对强化学习训练阶段的实际影响。
首先,强化学习对于推理时间扩展包括从策略模型采样轨迹并基于计算的奖励更新策略。在这种稀疏奖励设置中,初始策略模型的质量至关重要——如果模型在开始时很少生成高奖励轨迹,学习信号可能太弱,无法进行有效训练。为了评估初始策略模型的潜力,研究团队使用最佳N(BoN)采样进行评估,这揭示了模型在允许多次尝试时生成正确解决方案的能力。
他们在数学推理基准上评估了他们的模型,因为这些基准广泛用于通过强化学习引出推理时间扩展。他们选择了两个具有挑战性的基准,MATH-500和AIME24,并使用Llama-3.1-8B-Instruct和Qwen2.5-7B-Instruct作为基础模型,在他们的数据集上进行训练。
结果令人印象深刻。在Llama-3.1-8B-Instruct上,他们在两个基准上都观察到了显著的改进,在不同的N值上保持一致。同时,他们的Qwen2.5-7B-LC在给定大N值(如16或32)时改善了性能,而Qwen2.5-7B-Instruct的性能很快饱和。这表明他们的SFT训练方法使模型能够探索更多样化的响应,从而在应用于强化学习时导致更高的答案奖励。
接下来,研究团队测试了他们的模型在通用推理领域的表现,包括GPQA Diamond和MMLU-Pro基准。他们将自己的模型与三类基线进行了比较:闭源推理大模型(如OpenAI的o1和o1-mini)、SFT数据集未公开的开源推理大模型(如R1和QwQ),以及通过蒸馏获得的开源推理大模型(如Sky-T1和Bespoke-7B)。
在这些基准上,训练在Long CoT Collection上的模型在GPQA上显示出显著的性能提升,特别是Llama-3.1-8B-Instruct。值得注意的是,Qwen-2.5-7B-LC在GPQA上的性能略微超过了Bespoke-7B,这是R1的一个简单复制版本。这些模型在MMLU-Pro上也展示了适度的改进,表明从数据集中学到的推理策略有效地转移到了通用推理领域。
最后,研究团队验证了他们的收集是否为强化学习提供了可靠的起点。在微调阶段发展长形式思维链推理技能后,他们进入了下一阶段——使用GRPO进行RLVR——来验证他们的收集是否为强化学习提供了可靠的起点。由于用于长序列强化学习的GPU资源限制,他们在Long CoT Collection上训练了Qwen-2.5-0.5B,并将其作为强化学习的起点。
结果令人震惊。在MATH500和GPQA上,使用他们收集进行初始化的模型(即Qwen-2.5-0.5B-LC)通过RLVR实现了比基础模型(即Qwen-2.5-0.5B)高2-3倍的性能提升,有效缓解了冷启动问题。这表明Long CoT Collection是强化学习的可靠起点,表明它有潜力在稀疏奖励信号下实现更稳定的学习,最终导致更大的性能提升。
这就像是在教一个学生解决复杂的数学问题。如果我们先教会学生一些基本的解题策略和思考框架(通过Long CoT Collection训练),然后再让他们通过不断练习和反馈改进(强化学习),他们的进步会比直接从零开始学习要快得多。研究结果表明,这种"预训练+强化学习"的方法确实比单纯的强化学习效果好2-3倍,这验证了研究团队方法的有效性。
五、思维预算控制:解决过度思考问题
长序列推理模型的一个主要问题是过度思考——为简单问题生成不必要多的令牌。例如,QwQ-32B为像"1+1+3?"这样的基本问题生成约1500个令牌。同样,OpenAI的O系列模型提供三种类型——低、中、高——基于计算预算,允许用户根据任务复杂性调整思考预算。
研究团队的收集过程首先通过估计每个实例所需的大纲数量并相应地产生一系列推理大纲来生成推理大纲,这使我们能够通过强制所需的大纲数量来控制生成的推理长度。他们最终通过额外构建两组数据,每组分别被限制为仅使用原始预算的25%和50%,制作了Long CoT Collection的三个版本。
研究团队分析了生成的推理令牌与o1-mini思维令牌之间的相关性。结果表明,随着思维预算的减少和生成相对较短的推理,与o1-mini思维令牌的相关性减弱。此外,他们发现过度减少思维预算——特别是减少到25%——通过强制将太多信息塞入太少的推理大纲,扰乱了推理生成,使推理更加混乱。
他们还研究了每个收集的分布。结果表明,思维预算的减少导致收集的平均令牌长度相应减少。此外,有权访问更大预算的训练策略展示出比在更受限预算下训练的策略更强的推理能力。
这种思维预算控制的能力就像是教会学生如何根据问题的复杂性分配思考时间。对于简单的问题,不需要冗长的解答;而对于复杂的问题,则需要更详细的思考过程。通过控制思维预算,研究团队不仅提高了模型的效率,还使模型的推理过程更加接近人类的思考方式——根据问题的难度自动调整思考的深度和广度。
六、研究的局限性和未来工作方向
尽管这项研究取得了显著成果,但研究团队也认识到了一些局限性和未来可能的研究方向。
首先是在专家领域的应用。一个令人兴奋的下一步是将他们的管道应用于专家领域。虽然他们的数据集已经证明是数学和通用推理任务中强化学习的可靠起点,但他们预计其潜力可以进一步推广到更广泛的专业领域。
其次是扩展到更大的模型。尽管他们在第一阶段学习(即监督微调)中使用了7B-8B模型,但由于GPU资源限制(16个A100 40GB GPU),他们在第二阶段(即强化学习)中使用了0.5B模型,这是适合他们GPU资源的最大模型。
第三是使用多样化的教师推理大模型。他们只考虑了o1作为用于数据集构建过程的参考推理大模型。虽然他们选择o1是因为其代表性,但他们的方法可以进一步应用于部分披露其推理过程的其他推理大模型。
这些局限性和未来方向就像是一座高楼建设完成后的思考:我们已经成功建造了这座高楼,但它还可以如何改进?我们可以在更复杂的地形上应用同样的建筑技术吗?我们可以建造更高的高楼吗?我们可以借鉴其他建筑风格的元素吗?这些问题不仅指出了当前研究的局限性,也为未来的探索指明了方向。
七、结论:迈向真正开放的推理大模型时代
这项研究探索了使用训练于短思维链推理的大语言模型生成长思维链数据集的可行性。研究团队提出了一个用于构建Long CoT Collection的管道,该管道使用短思维链大语言模型,其中收集过程提供了对思维预算的控制性。这使我们能够调节生成的推理的长度,并提供了一种解决推理大模型面临的主要挑战之一:过度思考——为简单问题生成不必要多的令牌。
虽然在他们的数据集上训练并没有带来比直接从推理大模型蒸馏的显著改进,但他们的广泛实验表明,一旦进入强化学习阶段,使用他们的数据集初始化的策略比没有它的策略实现了2-3倍的性能提升。这凸显了他们的数据集作为强化学习可靠基础的优势。
这项研究的意义远超出技术细节。它代表了AI研究中一个重要的哲学转变:从依赖闭源模型到构建真正开放、透明和可控的AI系统。通过揭示构建高质量长思维链数据集的方法,研究团队不仅解决了推理大模型训练中的一个技术挑战,还为社区提供了一条实现AI民主化的路径。
想象一下,在不久的将来,开发者和研究人员不再需要依赖少数科技巨头提供的API服务,而是可以构建和训练自己的推理大模型,根据特定领域和需求进行定制。这种能力的开放将加速AI创新,让更多人受益于这一技术,并最终导致更多样化、更公平的AI生态系统。
这项研究的代码、数据集和模型已公开可用,这一举措本身就体现了研究团队对开放科学和技术民主化的承诺。通过分享他们的工作,他们不仅为当前的问题提供了解决方案,还为未来的研究和创新铺平了道路。
就像任何伟大的探索一样,这项研究既是一个终点,也是一个起点。它回答了一些问题,但也提出了新的问题;它解决了一些挑战,但也揭示了新的机遇。随着更多研究人员采用和扩展这种方法,我们可以期待看到更强大、更开放、更可控的推理大模型的出现,这些模型不仅能够解决复杂问题,还能以透明和可理解的方式进行推理。
领取专属 10元无门槛券
私享最新 技术干货