解析DeepSeek的算力需求，DeepSeek概念股

文章来源：企鹅号 - 我爱八卦6699

因为 V3 版本开源模型的发布，DeepSeek 又火了一把，而且这一次，是外网刷屏。训练成本估计只有 Llama 3.1 405B 模型的 11 分之一，后者的效果还不如它。

在多项测评上，DeepSeek V3 达到了开源 SOTA，超越 Llama 3.1 405B，能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕——而其价格比 Claude 3.5 Haiku 还便宜，仅为 Claude 3.5 Sonnet 的 9%。

不得不说，DeepSeek是颠覆式的大模型，在MMLU-Pro等大模型测试上，和全球巨头站在同一身位。

于此同时，市场也关注到了DeepSeek的一些参数（训练时间是LIama 3的1/11；价格是Claude 3.5的1/11），不少人担心训练侧大幅降本，引发算力需求下降。

我们认为，DeepSeek V3的成功，并不意味着算力需求下降。实际上是DeepSeek参数有歧义，才造成了市场的误读。

从训练到推理、算力需求持续增长

DeepSeek V3的训练成本仅考虑单次训练，而实际大模型的训练需要：1）大量高质量数据的合成及清洗；2）充分的预训练；3）多个MoE专家模型的多次训练；

AI应用和AI终端的落地节奏正在加速，推理侧将带来远超训练侧的算力需求，我们测算仅字节豆包未来就需要50-100万张等效H100算力需求。

DeepSeek V3 671B，使用2048块H800训练2个月，而Llama 3.1 405B使用1.6万H100训练80天。

[玫瑰]2048块H800并非全部训练算力投入。

1）不包括DeepSeek R1模型（对标OpenAI o1）生成的高质量数据消耗的算力。

2）不包括模型架构的探索调试阶段消耗的算力。

DeepSeek V3使用了哪些技术？

模型架构有创新：MLA和DeepSeekMoE。

MLA是DeepSeek独创，V2起引入模型；MoE架构已是主流选择， kimi、Llama 3.1等都使用，DeepSeekMoE颗粒度更细。

训练算法有创新：FP8混合精度训练和Dualpipe。降低计算复杂度、提升GPU协同效率

DeepSeek V3创新技术可借鉴，但需考虑模型性能。

训练算力投入和模型性能之间，需要权衡。DeepSeek V3暂无多模态生成能力。

“算法优化—成本下降—渗透率提升—强化训推投入”正向反馈持续。

通俗的说就是，算法优化后，相同的训练算力投入，能进行更多模型开发尝试，加速模型能力的提升，带动应用爆发，推理算力爆发，模型厂商的ROI提升，会维持算力投入强度。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货