在2025年1月下旬,DeepSeek发布了他们新的推理模型(DeepSeek R1);该模型在成本仅为一小部分的情况下开发,尽管受到GPU 出口禁令的影响,但其性能仍与OpenAI 的模型相媲美。 本报告讨论了该模型,以及其发布对更广泛的生成式AI领域的意义。 作者简要讨论了近期中国发布的其他模型,它们的相似性;混合专家(MoE)、强化学习(RL)以及巧妙工程的应用似乎是这些模型能力的关键因素。 这篇思考性文章是在紧凑的时间内撰写的,对主题进行了广泛覆盖,并为希望了解该模型技术进步及其在生态系统中的位置的读者提供了入门材料。 同时,还确定了几个进一步的研究领域。
在本文中,作者将探讨人工智能领域的最新进展,并分析其在不同行业中的应用。随着技术的不断发展,人工智能正逐渐成为推动社会进步的重要力量。本研究旨在对现有文献进行综述,总结人工智能领域的关键问题,并提出未来研究方向。
生成式人工智能的相对短暂历史中,模型能力的重大进步不断涌现。最近几周,这种情况再次发生,由一家中国公司 DeepSeek [1] 发布的几篇论文引发的。他们在12月底发布了DeepSeek-V3 [2],这是OpenAI的GPT-4o的直接竞争对手,据称在两个月内训练完成,花费约85.6百万美元 [3, 4],相当于其他同类模型成本的1/50 [5]。1月20日,他们发布了DeepSeek-R1 [6],一套推理模型,包含“众多强大且引人入胜的推理行为” [6],在性能上与OpenAI的GPT-1模型相当——并且对研究行人开放以供检查 [7]。
这种开放性对于许多渴望了解更多关于所使用模型的人工智能研究行人来说是一个受欢迎的举措。需要注意的是,这些模型作为“开放权重”发布,意味着模型可以被构建并自由使用(在MIT许可下),但如果没有训练数据,则并非真正的开源。然而,在相关的文档中分享了比以往更多的关于训练过程细节。
DeepSeek是一种深度学习算法,旨在通过探索大量数据集来发现新的模式、关联和潜在知识。该算法结合了强化学习和无监督学习的元素,能够在不依赖明确标注数据的情况下,自动调整其参数以优化搜索过程。DeepSeek通过模拟人类探索行为,不断评估和选择最有潜力的路径,从而在数据海洋中高效地挖掘知识。
DeepSeek-V3模型采用了两大主要效率提升手段;专家混合(MoE)架构以及众多工程效率优化。
MoE架构在高层本质上将模型划分为一系列专门的小型模型(一个用于数学,一个用于编程等),以减轻训练负担;在2020年的机器翻译Transformer,如谷歌的GShard中得到了应用,并在2024年1月的Mixtral LLM [8] 中使用,DeepSeek于2024年1月发表了关于其MoE方法的论文[9]。
2024年出现了一大批MoE论文,其中下一节中模型使用的几项MoE技术也在2024年底的NeurIPs会议上进行了展示。这至少在架构层面上表明,DeepSeek V3并非突如其来的突破(从事后诸葛亮的角度看!)
项目目标是利用纯强化学习(RL)来提升推理能力,无需监督数据,专注于自我进化。以他们的V3模型(671亿参数)为基础,采用可扩展的组相对策略优化(GRPO)作为强化学习框架,所得到的R1-Zero模型在推理和数学能力上有所提升,但也面临着如可读性差和语言混杂等挑战。
值得注意的是,R1-Zero模型的性能从AIME2024上的15.6%提升至71.0%,与openAI-o1-0912相当。随后,DeepSeek团队调整了基于强化学习(多数投票)的评分,使其达到86.7%。他们继续优化他们的流程,重新引入了一些监督微调,从而产生了R1模型。据报道,R1模型在许多基于推理和数学的评估任务上的得分与OpenAI的o1模型相当。
强化学习的过程促使模型在推理任务中生成更多 Token (即更多思考时间),随着过程的推进和测试时计算的增多,自发地出现了诸如反思和探索替代方法的行为。术语“啊哈时刻[6]”被用来描述一个中间模型学会以拟人化的语气重新思考的那个时刻。这种自我反思的涌现特性是一个关键发现,需要进一步研究来剖析和评估;模型是否通过自我反思学会更好地回答问题,就像它在GPT早期学会写散文一样;在这种情况下,这些内部功能将如何促进更好的泛化?R1论文的另一个观察结果是,当引入强化学习 Prompt 来鼓励语言一致性时,模型的性能下降,它在性能与可用性和可读性之间的权衡;R1模型在AIME 2024上的最终性能为79.8%。这引出这样一个问题:如果模型被允许在没有考虑其CoT成果可读性的情况下“思考”任何语言(包括代码),然后在向用户展示输出之前进行翻译,这是否会提高性能而不影响可用性?相反,能够查看和 Query 模型的CoT成果,不仅能够增强用户信心,还有助于可解释性。
在人工智能研究中,复制实验是一项至关重要的步骤。它旨在验证研究结果的可靠性和可重复性。通过复制实验,研究者可以确保他们观察到的效果并非偶然,而是由实验设计、数据集或算法本身引起的。此外,复制实验还有助于促进学术界的透明度和信任度。在进行复制实验时,研究者需要严格遵循原始实验的步骤和方法,以确保实验结果的一致性。
2023年1月25日,来自香港科技大学的研究行人发布了一篇论文[10, 11],描述了在仅使用8k个MATH1示例的7B模型上如何出现长链式思维(CoT)和自我反思,并表示“作者在复杂数学推理方面取得了令人惊讶的优异成果”。
他们的目标是重建R1-zero模型;他们从Qwen2.5-Math-7B(基础模型)开始,直接在该模型上进行了强化学习(无强化学习,无奖励模型),仅使用了8k个数学示例。他们观察到思维链长度和自涌现反思同样有所增加。所得到的模型在AIME上达到了33.3%的准确率,在数学基准测试中达到了77.2%(基础模型分别为16.7%和52.4%,均有提升);与rStar-MATH [12]相当。他们指出,rStar-MATH使用了超过50倍的数据量,并且需要更复杂的组件。
该项目在方法上存在一些显著差异,例如,在强化学习(RL)方面,该项目采用了近端策略优化(PPO)而非GRPO,尽管两者都被认为相对简单,且不需要奖励模型等,但也许更重要的是,他们并没有从大型模型开始,而是试图使用较小的7B参数Qwen模型,并在没有大规模RL设置的情况下重现该方法。
HuggingFace正在重新构建R1 [13],并将其完全开源,包括发布完整的数据和训练流程。他们的目标是重建整个流程,包括实现缺失的组件。他们计划通过从DeepSeekR1中提取高质量推理语料库,重现用于创建R1-Zero模型的纯强化学习流程,并展示通过多阶段训练(类似于R1的)从基础模型过渡到RL调整模型的 capability。
近期中国涌现出的创新成果不止这些。在1月22日,字节跳动(当时TikTok的母公司)发布了他们的Doubao-1.5-pro模型[14],其性能超过了GPT 4o,且成本仅为后者的50倍[15]。该模型还采用了MoE技术,并采用了一种高度优化的架构,在性能与降低计算需求之间取得平衡。Doubao 是中国最受欢迎的AI聊天机器人之一,拥有6000万活跃用户[16]。该公司致力于构建既具有智能又具备沟通能力的AI模型,寻求更加情感感知、发音自然的互动。Doubao很可能采用了改进的 Prompt 优化技术[17]以及通过局部敏感哈希实现的通信效率高的MoE训练[18]。后者旨在解决训练稀疏门控MoE模型所固有的延迟挑战;推理速度提高了2.2倍。
1月15日,科大讯飞推出了自家的深度推理大型模型——Spark Deep Reasoning X1,该模型基于完全自主的国产计算平台进行训练。该模型在问题解决过程中展现出类似“慢思考”的特点,同时以相对较低的算力实现了行业领先的效果。它在中文数学能力方面尤其突出,并已在教育领域成功应用,作为智能教学助手。
1月20日,中国研究公司Moonshot AI发布了Kimi k1.5 [20],报告称其在推理任务上的性能相当于o1(即OnAIME为77.5%,MATH为96.2%)。该模型还报告了在训练后使用了强化学习(RL)[21]。从技术媒体的报道来看,Kimi是跨模态的,包括文本、代码和图像。其上下文长度为128k,这意味着可以通过 Prompt 阅读整个小说。他们简化的RL框架平衡了探索和利用,并惩罚了生成过于冗长回答的模型。他们还通过混合长和短CoT模型的权重,鼓励了更短/更快的回答[22]。
一月底,Qwen发布了新一代模型,Qwen2.5-VL [23]。这个多模态(视觉和文本)模型相较于Qwen2进行了多项改进,包括:更优化的文本识别(包括手写、多语言和表),提升的目标检测和空间推理能力,改进的智能体功能以及更好的视频处理能力。2月2日,OpenAI宣布推出深度研究[24],声称“它能在几分钟内完成人类需要数小时的工作。”DeepSeek模型发布后,有人推测这可能会迫使OpenAI加快下一款产品的发布,以保持市场领先地位。目前还无法确定这一情况是否属实,以及这对模型的影响。
这些模型突出了算法效率和资源优化的重要性。与依赖暴力扩展不同,DeepSeek表明,通过显著减少资源,同样可以实现高性能。
OpenAI近期已经两次下调了价格,目前压力越来越大,要求他们允许用户访问推理 Token 。
1月29日,OpenAI提出DeepSeek“可能不适当地提炼了作者的模型”[25]。在发表时,尚未有进一步的分析或确认。1月31日,OpenAI部署了他们的o3-mini推理模型作为回应[26]。该模型采用深思熟虑的对齐方法,在每个推理步骤中审查一系列内部政策,以确保不会忽视任何安全规则。但他们也承认,推理模型更擅长自行破解[27]。
英伟达也面临着一些后果:建设最先进模型究竟需要多少顶级的芯片?英伟达的股价下跌了17%,市值损失近6000亿日元。
小型模型可以在本地机器上免费运行,同时提高隐私性。它们很快将通过HuggingFace [31] 和Ollama [32]进行安装。
一些研究行人指出,它可能比较脆弱,且难以触发。
关于V3论文中描述的成本存在一些怀疑,DeepSeek表示训练V3模型大约花费了5.6百万美元。尽管其他人[36]认为所提供的数字是合理的。
Scale.ai的创始人亚历山大·王表示,他相信DeepSeek拥有50,000台H100 GPU。[37]
一些研究行人指出,两年前已经尝试过类似的方法应用于模型,但结果远远没有达到预期的效果[38]。这种假设认为,基础模型的质量是关键因素。
RLCoT(通过强化学习学习到的思维链)被视为一种涌现行为,它只有在约1.5B参数规模模型中才会出现。并且,选择(简单的)强化学习算法对结果的影响并不大[39]。
用户观察到,思维链内部对话往往充满自我怀疑,并且表现出极低的自信心,但给出的答案却以过于自信的语调呈现。这种表现看起来更加真诚,因此也增强了用户对模型的信任。
许多这类系统正在使用生成式AI来帮助创建或汇总数据集,以训练更出色的推理能力。这种做法是否会在LLM训练材料上出现与训练LLM相同的退化问题?图1:比较模型输出,以突出两种模型之间的价值差异。
在本文中,作者对所提出的AI模型进行了深入讨论。首先,作者分析了模型的性能,并与其他现有方法进行了比较,突出了其在特定任务上的优势。其次,作者探讨了模型的局限性,并提出了可能的改进方向。此外,作者还讨论了模型在实际应用中可能遇到的问题,并提出了相应的解决方案。最后,作者展望了未来研究方向,并强调了该模型在人工智能领域的重要性和潜在价值。
作者认为,这一波推理模型发布的密集活动,随着训练和推理成本的降低,是中国针对数据(和计算)扩展限制的技术回应。这些模型展示了KISS(保持简单,傻瓜式)方法和巧妙工程学的创新结合,基于开源文献,许多技术可追溯到最近的论文。尽管如此,令人遗憾的是,用于训练的数据细节在文档中并未详细说明。
关注提升数学和编程(通过推理)的能力可能旨在支持未来更具自主性的方法(2025年被誉为智能 Agent 之年)。但应注意的是,这些评估处于易于自动化的低端;数学答案的正确性是确定的,具有单元测试的编码任务也容易自动化,因此更适合采用强化学习(RL)类型的方法。
然而,如果作者考虑到简单的强化学习(RL)允许模型通过相对较小的数据集(如8k MATH)进行“技能提升”,那么作者还能在小型模型上开发或赋予哪些技能呢?这种技术仅仅对及格/不及格的测试数据集有效吗?或者,当模型被提升以更具创意地编写故事时,作者能否获得类似的回报?
应对技术使用的不确定性和真实的训练成本:显然,作者很难提供准确可靠的结论。这确实提出了一个有趣的研究问题;从发布的模型中可以获取哪些关于开发流程的见解?同样,是否可以从训练过程中使用的哪些数据集中获取任何见解?对于较小模型的意义有两方面:首先,从大型模型中提取信息到较小模型的能力得到证实——为训练后提供了捷径。其次,使用简单的强化学习方法可以带来显著的(尽管是有限的)性能提升——在较低的计算成本下。
[1]. Brief analysis of DeepSeek R1 and it’s implications for Generative AI .