因为 V3 版本开源模型的发布,DeepSeek 又火了一把,而且这一次,是外网刷屏。训练成本估计只有 Llama 3.1 405B 模型的 11 分之一,后者的效果还不如它。
在多项测评上,DeepSeek V3 达到了开源 SOTA,超越 Llama 3.1 405B,能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕——而其价格比 Claude 3.5 Haiku 还便宜,仅为 Claude 3.5 Sonnet 的 9%。
不得不说,DeepSeek是颠覆式的大模型,在MMLU-Pro等大模型测试上,和全球巨头站在同一身位。
于此同时,市场也关注到了DeepSeek的一些参数(训练时间是LIama 3的1/11;价格是Claude 3.5的1/11),不少人担心训练侧大幅降本,引发算力需求下降。
我们认为,DeepSeek V3的成功,并不意味着算力需求下降。实际上是DeepSeek参数有歧义,才造成了市场的误读。
从训练到推理、算力需求持续增长
DeepSeek V3的训练成本仅考虑单次训练,而实际大模型的训练需要:1)大量高质量数据的合成及清洗;2)充分的预训练;3)多个MoE专家模型的多次训练;
AI应用和AI终端的落地节奏正在加速,推理侧将带来远超训练侧的算力需求,我们测算仅字节豆包未来就需要50-100万张等效H100算力需求。
DeepSeek V3 671B,使用2048块H800训练2个月,而Llama 3.1 405B使用1.6万H100训练80天。
[玫瑰]2048块H800并非全部训练算力投入。
1)不包括DeepSeek R1模型(对标OpenAI o1)生成的高质量数据消耗的算力。
2)不包括模型架构的探索调试阶段消耗的算力。
DeepSeek V3使用了哪些技术?
模型架构有创新:MLA和DeepSeekMoE。
MLA是DeepSeek独创,V2起引入模型;MoE架构已是主流选择, kimi、Llama 3.1等都使用,DeepSeekMoE颗粒度更细。
训练算法有创新:FP8混合精度训练和Dualpipe。降低计算复杂度、提升GPU协同效率
DeepSeek V3创新技术可借鉴,但需考虑模型性能。
训练算力投入和模型性能之间,需要权衡。DeepSeek V3暂无多模态生成能力。
“算法优化—成本下降—渗透率提升—强化训推投入”正向反馈持续。
通俗的说就是,算法优化后,相同的训练算力投入,能进行更多模型开发尝试,加速模型能力的提升,带动应用爆发,推理算力爆发,模型厂商的ROI提升,会维持算力投入强度。
领取专属 10元无门槛券
私享最新 技术干货