部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >DeepSeek“日赚”56万美元,“朋友圈”掀起算力战

DeepSeek“日赚”56万美元,“朋友圈”掀起算力战

作者头像
小腾资讯君
发布2025-03-04 18:04:31
发布2025-03-04 18:04:31
90
举报

芯事重重“算力经济学”系列研究,聚焦有关算力、成本相关话题的技术分析、产业穿透,本期聚焦“DeepSeek接入潮”背景下的算力现状。

作者 kiki、谢浩

编辑 腾讯科技 苏扬

大模型竞逐迈入第三年,来自中国杭州的一家本地初创企业DeepSeek如同一条鲶鱼,彻底搅活了全球大模型的生态圈。 

从蛇年春节开始,一场围绕“接入DeepSeek”的竞赛就席卷中国AI行业。短短一个多月内,从芯片厂商、云厂商、算力服务商、软件厂商再到面向终端用户的各类硬件厂商,超百家中国公司已宣布加入DeepSeek朋友圈,借其开源模型能力,提升自身的业务想象力。 

毫无疑问,DeepSeek让大模型更普及了,但与汹涌流量并行而来的还有一个更关键的问题——算力。

围绕着这个关键问题,市场的态度经历了“反复横跳”:初期阶段,DeepSeek低算力成本的特性,曾经一度重创英伟达等算力厂商的股价;在这之后,随着访问用户的激增和私有化部署的需求,算力概念股又强势翻红,供不应求。近期,DeepSeek还对外公布了其理论成本和利润率,再度引发AI圈讨论。 

随着DeepSeek朋友圈的不断扩大,芯片硬件侧由OpenAI所掀起的军备竞赛,究竟能否延续?这场算力游戏,又会带来哪些新的规则? 

图片
图片
DeepSeek“朋友圈”各怀心思

DeepSeek以低成本、高性能著称,按照官方提供的数据,每个H800节点上每秒有73.7k/14.8k个输入/输出tokens,理论单日总收入562027美元,成本利润率545%,其「中国式创新」激活了国产算力生态。 

而从DeepSeek的「朋友圈」中来看,表现最为积极、速度最快的可以分为四类玩家:基础层(包括国产芯片厂商、云厂商)、中间层(AI Infra厂商)以及在B、C两端的软、硬件厂商。

图片
图片

据「硅基研究室」不完全统计,第一批接入DeepSeek的企业就接近百余家。 

“一天有十几个咨询,从春节复工后就没有休息”。一位AI Infra厂商商务BD告诉「硅基研究室」。 

作为连接大模型底层算力和下游应用的中间层,AI Infra厂商既是第一批接住DeepSeek“流量”的玩家,也是第一批吃到流量外溢的受益者

AI Infra厂商硅基流动创始人袁进辉曾在朋友圈复盘,DeepSeek出圈后,他们在2月1日就迅速找到华为,完成DeepSeek-R1和V3在昇腾生态的适配工作。 

与AI Infra厂商有着相似敏锐度的,还有国产芯片厂商,某智算中心服务商李杨(化名)的直接体感是,此轮DeepSeek热潮中“国产AI芯片厂商这轮反应速度很快,几乎和英伟达这些国际玩家同步接入。” 

图片
图片

紧随其后的就是云厂商和面向终端的软硬件厂商。 

云厂商方面,“互联网云”几乎都赶在春节期间上线了基于DeepSeek模型的API服务,打起了新一轮的「低API价格+开源模型战」,云端算力推动DeepSeek加速渗透不同行业。 

硬件方面,端侧手机厂商也是最先拥抱DeepSeek的首批玩家,而在用户最有直观感受的软件应用侧,包括腾讯在内的大厂携「超级应用+DeepSeek」卷入竞争,给大模型竞逐再添一把火。 

分食DeepSeek流量背后,不同玩家其实「各怀心思」。从算力层来看,有着相对充足算力储备的云厂商显然动力更强。云厂商是中国算力市场的投资主力,向外它们既会大规模投资固定资产,包括采购芯片、服务器、租赁土地建数据中心等,对内也会自研芯片。 

以阿里和百度为例,2024年全年,阿里资本支出总计超724亿元,百度超82亿元,据《财经》此前报道,阿里、字节跳动也早已完成10万卡级别的算力储备。 

除此以外,DeepSeek通过模型压缩、稀疏计算、混合精度训练等多种技术手段验证了低算力成本复现高性能模型的可行性,也给自研芯片的大厂带来了“自供血”机会。 

自供血、对外租赁,云厂商有自己的业务闭环”。联想控股副总裁于浩告诉「硅基研究室」。 

其次,在战略层,借自有云业务,BAT和字节跳动借DeepSeek可以达成两大意图:一是通过DeepSeek这一超级流量入口,与自身产品协同,短期承接DeepSeek的流量。二是有助于鞭策内部团队,在对比中提升自身模型能力。

前者更像是移动互联网时代大厂们擅长的打法,资深芯片专家、中存算董事长陈巍认为DeepSeek出现之后改变了大众对大模型商业本质的思考:“原先公众认为大模型它可能是一个在日常对话、应用办公的工具,但事实上,DeepSeek出现之后,大模型也可以成为一个超越互联网、甚至超越原先这些操作系统的超级流量入口。” 

图片
图片

近30天DeepSeek移动端日活数据走势 来源:Sensor Tower

Sensor Tower的数据显示,截至2月24日,DeepSeek移动端的日活数据,已由超过1500万的峰值,下滑至700万左右。与之对应的是,元宝、豆包、通义等均实现了访问量和日活的大幅增长。 

于浩提到,DeepSeek的模型能力有目共睹,有流量有市场,且前期在C端以免费模式实现DAU的闪电式扩张,头部大厂自然会迅速跟进。 

即便是放眼整个中国互联网历史上,像DeepSeek这样得到全行业追捧和争抢接入的产品,除了去年的“原生鸿蒙热”,几乎很难找到其他案例。 

最后,回到应用侧,DeepSeek以低成本和低功耗支持复杂AI任务运行,推动AI进一步下沉至智能终端、汽车智驾和产业侧。 

以厂商为例,华为、荣耀、OPPO、vivo、魅族、努比亚等手机品牌宣布在AI助手接入DeepSeek。 

长期来看,手机厂商集体拥抱DeepSeek,一方面有利于其扩充云端AI生态,另一方面,也有望不断拉动手机SoC需求量,在端侧、边缘侧,诞生更多的软硬件升级。

高通CEO安蒙近期在财报电话会上表示:“DeepSeek-R1和其他类似模型最近表明,AI模型正在发展得更快、更小、更强大、更高效,并且现在能够直接在设备上运行。” 

图片
图片
算力与有效算力:一边闲置,一边短缺

伴随“接入DeepSeek”浪潮而来的,是服务器繁忙的提示。 

如果从用户直接体验来看,服务器繁忙、延迟加剧,就连硅基流动也开始不得不限流,寻求更多的算力资源,特别当携移动互联网时代超级应用入场的大厂,庞大的用户量更加剧了对算力的焦虑。 

图片
图片

硅基流动袁进辉宣布因需求大开始限流

 这些DeepSeek“朋友圈”,它们的算力到底够不够?

「硅基研究室」多方了解到,在这一问题上,行业目前的共识是短期算力洗牌,长期算力短缺

「短期算力洗牌」指的是DeepSeek打破了过去模型厂商“大力出奇迹”的叙事,它在模型架构、预训练和推理侧的系统级工程手段,拉低了模型部署的算力门槛,短期内给国产芯片、算力服务商等整合国产算力、推动国产算力洗牌提供了机会窗口。 

具体来看又可以分为两方面,一是给国产芯片提供了更多机会;二是解部分智算中心算力闲置的困局

关于第一点,一直以来,强劲性能都是英伟达高端GPU的护城河,也是起步较晚的国产芯片的一大软肋。 

DeepSeek的出现一定程度上降低了对高性能芯片的依赖,作为采用MoE架构的大模型,DeepSeek对芯片训练性能的要求并不高,即便是像英伟达H20这样的性能阉割版GPU,也可以胜任DeepSeek的本地化部署需求,甚至成为了目前渠道端的“热销货”。 

一位芯片渠道商告诉「硅基研究室」,H20 141GB八卡服务器目前是120万一台,是期货,要等4-6周,96GB H20八卡服务器还有不少现货,但“每天一个价”。

相较于训练场景,DeepSeek对于硬件侧的需求更多聚焦在“堆料环节”。 

陈巍告诉「硅基研究室」,“像DeepSeek这样的超大超稀疏MoE模型,显存远远不够用。从产业角度而言,适配高端GPU的高带宽存储器(HBM)又很贵。” 

这意味着,单纯靠增大GPU显存来适配DeepSeek,会凭空增加巨大的成本。 

图片
图片

这也是为什么,业内一直在探索更具性价比的部署方案。“一种合理的部署方式就是CPU/GPU多专家多显卡的部署方案,还有一种是直接用CPU的内存去充当不常用细分专家的存储缓存。”陈巍说。 

而这两种方案所对应的“算力性价比”和“异构协同”能力,正是国产芯片长期发力的差异化优势

另有大模型行业人士提到,国产生态对DeepSeek也并不陌生,2024年DeepSeek发布第二代开源大模型DeepSee-V2时,硅基流动就基于英伟达生态上线了推理服务,对其模型架构等方面也十分熟悉。 

AI Infra厂商所做的工作涵盖了数据准备、模型训练、部署和应用整合等,硅基流动主要通过其模型云服务平台SiliconCloud、大语言模型推理引擎SiliconLLM等产品,让模型能力能按需调用。打个比方,它们相当于是一个“厨师”,将原始算力资源加工成符合用户需求的“成品菜”,自上线DeepSeek R1/V3推理服务后,SimilarWeb数据显示,给硅基流动带来了数十倍的流量增长,目前SiliconCloud已获得了超三百万的用户。 

而对一些部署国产芯片的智算中心而言,DeepSeek出圈也短期解决了算力闲置和碎片化问题,上述智算中心服务商李杨算过一笔账,中国智算中心项目目前已超过600个(包括在建),各地也在兴建千卡、万卡算力资源池。 

据机构「IDC圈」不完全统计,截至2024年11月20日,中国智算中心项目已经达到634个。 

轰轰烈烈的“算力浪潮”之下,为何还会出现「闲置问题」? 

在李杨看来,DeepSeek出圈前,国产算力中心缺少一个成本低、性能好且开源的模型。“智算中心大多是国产卡,一个大模型火了,每次都要适配一堆,加上人力有限,没有好的开源模型,所以很多最后没有用起来。” 

另一个原因在于,算力中心主要面向产业、学界等,客户对算力成本也很敏感。过去在推理侧,智算中心以单卡形式提供算力服务,智算中心的集群规模化效应并没有凸显,国产算力得不到有效消耗

“成本和产能就是主要问题,产能低的芯片价格高,只有产能稳定才能有规模效应,降低智算中心成本。”李杨告诉「硅基研究室」。 

但DeepSeek打破了这个窘境:首先,国产芯片厂商反应迅速,其次,作为李杨口中一个真正“好的开源大模型”,它带动了上下游生态,叠加政策驱动,推动过去闲置的国产算力真正地用起来。 

除此以外,作为中间层的AI Infra厂商也在迅速整合生态、加速算力市场洗牌,在DeepSeek牵引下,比如推出敏捷式的多并发一体机,以软硬件一体化,提供更多元、高效的推理服务解决方案。 

图片
图片

但短期洗牌过后,长期来看,算力还是短缺的。

训练和推理是AI芯片的主要任务场景,DeepSeek带动智能算力结构变化,推动Scaling Law向后训练、推理阶段转移。 

据IDC数据,2024年,中国智能算力规模达725.3百亿亿次/秒(EFLOPS),同比增长74.1%,增幅是同期通用算力增幅(20.6%)的3倍以上。分结构来看,未来智能算力内部训练算力占比会下滑至27.4%,推理算力占比将上升到72.6%。 

推理算力猛涨的背后,是行业对“AI加速渗透千行百业”的期待。 

民生证券以目前日活量、日均token调用量为基础,对“超级应用”接入DeepSeek做出了保守估算,10亿级别DAU应用接入DeepSeek且全面普及使用后,所需的推理算力规模约为28万张H20。 

东吴证券也以AI手机为例,测算得到端侧算力需求在2024-2027年间基本维持翻倍以上的增速,AI手机云端算力需求折算成Blackwell GPU卡的FP8算力,在2025年的需求量约为12万张。 

“算力永不眠。”一位大模型行业人士向「硅基研究室」这样解释,可以从大厂公布的Token消耗量粗暴理解算力长期需求。 

去年12月18日,字节公布豆包通用大模型日均Token消耗量已超4万亿,百度在去年8月公布文心一言通用大模型日均处理Tokens文本超1万亿,而据火山引擎智能算法负责人吴迪此前预测,2027年豆包每天Token消耗量预计超过100万亿,是原来的100倍以上。 

上述大模型行业人士称,考虑到未来视频推理、用户量增长等因素,推理算力需求长期或向百万卡迈进,“长期算力难以准确估计”

事实上,中国科技大厂已经进入新一轮的扩张周期——以阿里近两年资本支出为例,分季度呈现出高增趋势,部分季度甚至呈现三位数高增,阿里管理层在最新财报电话会给出的指引是——未来三年在云和AI的基础设施投入将超越过去十年的总和,约为3800亿元。 

图片
图片

据「硅基研究室」不完全统计,开年后,多家中国云厂商宣布新节点计划,阿里云在泰国、墨西哥新数据中心先后官宣启用。 

比中国科技大厂更早进入算力投资的是海外科技大厂,「硅基研究室」在《「DeepSeek恐慌」,为何难挡微软们疯狂撒钱?》中提到,拉长时间线看,从2023年Q2开始,微软、Meta、亚马逊和谷歌的资本支出就呈现出明显的上升趋势。 

如果按「资本密集度」(资本支出占营收比重)这一指标看,2024年,微软、Meta、亚马逊和谷歌资本支出占总营收的17.2%,这一数字甚至高于上一轮大型能源公司的资本支出投入

图片
图片

这究竟是一种害怕错过的情绪,还是被拥趸的“杰文斯悖论”真相?没有人能给出确切的答案。 

此前Meta创始人扎克伯格也被彭博主持人问到:“数据中心的投资到底是不是泡沫?”无法正面回答的扎克伯格,只能从互联网泡沫里找答案:“许多所谓的泡沫最终也会变得很有价值,这只是一个时间问题,我不知道AI最终会怎么发展,还是很难预测的。

图片
图片
“算力游戏”与“效率游戏”

比起讨论「是不是泡沫」,国产算力现阶段还有更需要做的事。 

于浩认为,这几年国内算力发展可以分为两个阶段:一是“小马拉大车”,以追为始,集体将向OpenAI看齐,明星企业大量融资但望卡兴叹;二是“小米加步枪”,DeepSeek出圈破局,将每口粮食都吃在刀刃上,每颗子弹都瞄在靶心上,软硬兼施,压榨算力优化到极致。 

“行业需要更多的高性价比算力”,从2003年就开始在清华实验室接触人工智能的陈巍这样总结。 

在陈巍看来,首先是坚定地支持像DeepSeek这样有价值的国产自主创新;其次是要积极复现DeepSeek的技术路线,以及在具体业务场景中“边跑边落地更具性价比”的算力方案。“大家要更多地支持像DeepSeek这样的一个跨界联合创新,而不仅仅是单点创新。” 

单靠DeepSeek的一己之力,很难撬动硬件端国际大牌们的护城河。 

以此前媒体所报道的“DeepSeek击穿CUDA生态”为例,本质上只是DeepSeek依托PTX(Parallel Thread Execution,CUDA生态内部的中间指令集),绕过了CUDA生态的高层API,越级直接指挥、优化底层硬件,但上述技术路线本质上仍然在英伟达的框架内寻求突破。 

即便是聚焦技术路线创新DeepSeek,也仍然没有完全绕过英伟达CUDA生态,这意味着,在国产AI芯片侧,借DeepSeek之势,抱团取暖,建立国内自主可控的类CUDA生态是长期任务。 

图片
图片

一位不愿透露姓名的服务器专家向「硅基研究室」表示,国产AI芯片现阶段仍需要基于大模型做专门设计,例如“低精度高缓存”,加快支持FP8数据类型(DeepSeek采用了 FP8混合精度训练),让推理更加便宜的同时,也利于下游服务器厂商的设计。 

在云厂商及算力服务商侧,在豪赌之外,需要算大模型的经济账——除了采购芯片外,数据中心建设还包括了能源配套、人力配套(运维、研发)和数据资产等成本支出

除此以外,在大模型抵达最终训练前,前期研究、所使用的数据训练等各环节的试错成本,以及人员薪酬等这些也都是总成本的一部分,模型厂商并不会公开这些隐形成本。 

因此,如何在算力建设的每一环降低资源浪费,这既考验大厂各家的Infra能力,也考验自身的预期管理。 

海外云厂商的普遍做法有延长服务器折旧周期,与能源公司合作等手段,有的也及时止损。此前微软就被曝出暂停了OpenAI计划使用的威斯康星州人工智能数据中心的部分建设,原因是高估了部分地区的算力需求。 

一边更合理地规划资源,提升算力利用率。另一边,巧妙施展财技,保证利润率水平,这也是后续云厂商反应在基本面上的趋势。具体到模型侧,拥抱开源、持续优化算法,已经成为了当前各大厂商的阶段共识。 

与此同时,在应用侧推动产品爆发、落地,也成为了厂商们拓展“算力故事”的重点。根据「硅基研究室」多方了解,C端的个人Agent、B端的企业私有化部署以及G端的政务公共智算云,则是行业目前关注的三大方向。 

如果说,过去OpenAI掀起的是一场算力游戏,那么DeepSeek出圈后,这场游戏还将继续,只不过它有了新的定语,这是一场“算力效率”的游戏。 

尽管一度被砸掉6000亿美金市值,黄仁勋还是多次对DeepSeek给予了正面评价,最新的财报电话会议中,他说:“感谢DeepSeek,它开源了一个绝对世界级的推理模型。”

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • DeepSeek“朋友圈”各怀心思
  • 算力与有效算力:一边闲置,一边短缺
  • “算力游戏”与“效率游戏”
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档