DeepSeek-R1 是如何通过架构优化降低计算成本的？

文章来源：企鹅号 - 老吕视界

DeepSeek-R1 主要是通过采用高度优化的混合专家架构（Mixture of Experts, MoE）、细粒度的专家共享机制以及模型蒸馏技术，在保持顶尖性能的同时显著降低了计算和推理成本。

以下是其通过架构优化降低成本的具体方式：

1. 细粒度共享专家架构 (Fine-grained, Shared-Experts MoE)

DeepSeek-R1 采用了改进的 MoE 架构，这是其实现高效率的核心。

按需激活参数：

与传统模型每次推理都激活所有参数不同，DeepSeek-R1 的旗舰版本虽然拥有6710 亿（671B）的总参数量，但对于每个 token 的处理，仅激活其中的 370 亿（37B）个参数。这种稀疏激活机制使得模型能够拥有超大规模的“知识容量”，而实际推理时的计算量却仅相当于一个中型模型。

共享专家设计：

DeepSeek 引入了“细粒度共享专家”设计，这种架构能更有效地压缩计算资源并提高硬件利用率。

2. 极高的训练与推理能效比

DeepSeek 通过算法优化，在极低的硬件预算下实现了与美国顶尖闭源模型对等的性能。

低廉的训练成本：

资料显示，DeepSeek-R1 仅使用了约 2000 个 GPU，以560 万美元的极低成本便完成了训练，这一数字远低于同类领先模型。其中，强化学习（RL）阶段的计算成本估计仅为100 万美元左右。

利用现有高效组件：

DeepSeek 团队通过集成广泛使用的研究组件（如 OpenAI 的 Triton 框架、斯坦福的 FlashAttention 等）来减少开发时间并节省计算资源。

3. 知识蒸馏 (Model Distillation)

DeepSeek-R1 通过蒸馏技术将复杂模型的逻辑推理能力迁移到更小的模型中，从而大幅降低了部署成本。

低成本推理：

DeepSeek 将 R1 的推理行为蒸馏到了参数量从15 亿（1.5B）到 700 亿（70B）不等的较小密集模型中。

性能保持：

这些小型模型能够模仿 R1 的推理链（Chain-of-Thought），使开发者能在更廉价的硬件上运行具备“思考能力”的 AI。

4. 优化的推理模式

双重推理模式：

类似于其他顶尖中国模型，DeepSeek 的架构支持在“思考模式”（慢速但深度推理）和“直接模式”（快速响应）之间切换，允许用户根据任务复杂度平衡计算效率和准确度。

总结而言，DeepSeek-R1 的架构优化证明了 AI 的领先地位不再仅仅取决于模型的绝对规模，更取决于如何通过MoE 专家路由和高效的训练策略来最大化单位算力的产出。

相关快讯