要点快读
从模型开源,到代码开源,DeepSeek凭一己之力,重塑了大模型世界。2025年3月1日,DeepSeek在开源周最后一天抛出压轴成果——V3/R1推理系统理论日利润高达47.5万美元(约合346万元人民币)。这一惊人数字引发人们对于AI模型服务商业化的讨论。
DeepSeek在知乎了披露大规模部署成本和收益,又一次颠覆了很多人认知。
DeepSeek官方发布《DeepSeek-V3/R1推理系统概览》技术文章,首次公布模型推理系统优化细节,并披露成本利润率关键信息。DeepSeek表示,希望本周分享的技术见解能为开源社区带来价值,共同推进通用人工智能的发展目标。
DeepSeek V3 和 R1 的所有服务均使用 H800 GPU,使用和训练一致的精度,即矩阵计算和 dispatch 传输采用和训练一致的 FP8 格式,core-attention 计算和 combine 传输采用和训练一致的 BF16,最大程度保证了服务效果。
在过去24小时内(02月27日中午12:00至02月28日中午12:00),V3和R1推理服务的合计峰值节点占用达到278个,平均占用226.75个节点(每个节点包含8个H800 GPU)。假设租赁一个H800 GPU的成本为每小时2美元,DeepSeek每日总成本为87,072美元(折合人民币约63万元)。
另外,由于白天的服务负荷高,晚上的服务负荷低,因此我们实现了一套机制,在白天负荷高的时候,用所有节点部署推理服务。晚上负荷低的时候,减少推理节点,以用来做研究和训练。
如果所有token都按照下列DeepSeek-R1的定价计费(DeepSeek R1 的定价:$0.14 / 百万输入 tokens (缓存命中),$0.55 / 百万输入 tokens (缓存未命中),$2.19 / 百万输出 tokens),每日总收入将达到562,027美元,利润率为545%。这意味着,理论上,DeepSeek每日净赚47.5万美元,约合人民币346万元。
基本免费的DeepSeek成本利润率高达545%,而堪称世界最贵的OpenAI却在亏损?然而,实际收入远低于理论计算值,DeepSeek-V3 的定价远低于 R1。只有部分服务实现了商业化,Web 和 APP 访问仍然免费。夜间非高峰时段会自动应用折扣,进一步降低收入。
深度求索知乎官号的回答:DeepSeek-V3 / R1 推理系统的优化目标是:更大的吞吐,更低的延迟。为了实现这两个目标,我们的方案是使用大规模跨节点专家并行(Expert Parallelism / EP)。
首先 EP 使得 batch size 大大增加,从而提高 GPU 矩阵乘法的效率,提高吞吐。其次 EP 使得专家分散在不同的 GPU 上,每个 GPU 只需要计算很少的专家(因此更少的访存需求),从而降低延迟。
最近火爆的“Deepseek”商标和专利是如何布局的?
对于《DeepSeek-V3/R1推理系统概览》,你有什么看法呢?欢迎在评论区留言分享你的观点。
领取专属 10元无门槛券
私享最新 技术干货