首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

解析DeepSeek的算力需求,DeepSeek概念股

 因为 V3 版本开源模型的发布,DeepSeek 又火了一把,而且这一次,是外网刷屏。训练成本估计只有 Llama 3.1 405B 模型的 11 分之一,后者的效果还不如它。

在多项测评上,DeepSeek V3 达到了开源 SOTA,超越 Llama 3.1 405B,能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕——而其价格比 Claude 3.5 Haiku 还便宜,仅为 Claude 3.5 Sonnet 的 9%。

不得不说,DeepSeek是颠覆式的大模型,在MMLU-Pro等大模型测试上,和全球巨头站在同一身位。

于此同时,市场也关注到了DeepSeek的一些参数(训练时间是LIama 3的1/11;价格是Claude 3.5的1/11),不少人担心训练侧大幅降本,引发算力需求下降。

我们认为,DeepSeek V3的成功,并不意味着算力需求下降。实际上是DeepSeek参数有歧义,才造成了市场的误读。

 从训练到推理、算力需求持续增长

DeepSeek V3的训练成本仅考虑单次训练,而实际大模型的训练需要:1)大量高质量数据的合成及清洗;2)充分的预训练;3)多个MoE专家模型的多次训练;

AI应用和AI终端的落地节奏正在加速,推理侧将带来远超训练侧的算力需求,我们测算仅字节豆包未来就需要50-100万张等效H100算力需求。

DeepSeek V3 671B,使用2048块H800训练2个月,而Llama 3.1 405B使用1.6万H100训练80天。

[玫瑰]2048块H800并非全部训练算力投入。

1)不包括DeepSeek R1模型(对标OpenAI o1)生成的高质量数据消耗的算力。

2)不包括模型架构的探索调试阶段消耗的算力。

DeepSeek V3使用了哪些技术?

模型架构有创新:MLA和DeepSeekMoE。

MLA是DeepSeek独创,V2起引入模型;MoE架构已是主流选择, kimi、Llama 3.1等都使用,DeepSeekMoE颗粒度更细。

 训练算法有创新:FP8混合精度训练和Dualpipe。降低计算复杂度、提升GPU协同效率

 DeepSeek V3创新技术可借鉴,但需考虑模型性能。

  训练算力投入和模型性能之间,需要权衡。DeepSeek V3暂无多模态生成能力。

“算法优化—成本下降—渗透率提升—强化训推投入”正向反馈持续。

  通俗的说就是,算法优化后,相同的训练算力投入,能进行更多模型开发尝试,加速模型能力的提升,带动应用爆发,推理算力爆发,模型厂商的ROI提升,会维持算力投入强度。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OaSARGuYmasUAipC_6_tW86A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券