DeepSeek-R1 主要是通过采用高度优化的混合专家架构(Mixture of Experts, MoE)、细粒度的专家共享机制以及模型蒸馏技术,在保持顶尖性能的同时显著降低了计算和推理成本。
以下是其通过架构优化降低成本的具体方式:
1. 细粒度共享专家架构 (Fine-grained, Shared-Experts MoE)
DeepSeek-R1 采用了改进的 MoE 架构,这是其实现高效率的核心。
按需激活参数:
与传统模型每次推理都激活所有参数不同,DeepSeek-R1 的旗舰版本虽然拥有6710 亿(671B)的总参数量,但对于每个 token 的处理,仅激活其中的 370 亿(37B)个参数。这种稀疏激活机制使得模型能够拥有超大规模的“知识容量”,而实际推理时的计算量却仅相当于一个中型模型。
共享专家设计:
DeepSeek 引入了“细粒度共享专家”设计,这种架构能更有效地压缩计算资源并提高硬件利用率。
2. 极高的训练与推理能效比
DeepSeek 通过算法优化,在极低的硬件预算下实现了与美国顶尖闭源模型对等的性能。
低廉的训练成本:
资料显示,DeepSeek-R1 仅使用了约 2000 个 GPU,以560 万美元的极低成本便完成了训练,这一数字远低于同类领先模型。其中,强化学习(RL)阶段的计算成本估计仅为100 万美元左右。
利用现有高效组件:
DeepSeek 团队通过集成广泛使用的研究组件(如 OpenAI 的 Triton 框架、斯坦福的 FlashAttention 等)来减少开发时间并节省计算资源。
3. 知识蒸馏 (Model Distillation)
DeepSeek-R1 通过蒸馏技术将复杂模型的逻辑推理能力迁移到更小的模型中,从而大幅降低了部署成本。
低成本推理:
DeepSeek 将 R1 的推理行为蒸馏到了参数量从15 亿(1.5B)到 700 亿(70B)不等的较小密集模型中。
性能保持:
这些小型模型能够模仿 R1 的推理链(Chain-of-Thought),使开发者能在更廉价的硬件上运行具备“思考能力”的 AI。
4. 优化的推理模式
双重推理模式:
类似于其他顶尖中国模型,DeepSeek 的架构支持在“思考模式”(慢速但深度推理)和“直接模式”(快速响应)之间切换,允许用户根据任务复杂度平衡计算效率和准确度。
总结而言,DeepSeek-R1 的架构优化证明了 AI 的领先地位不再仅仅取决于模型的绝对规模,更取决于如何通过MoE 专家路由和高效的训练策略来最大化单位算力的产出。