作者 林易
编辑 重点君
梁文锋亲自参与的DeepSeek最新论文,来了!
刚刚,DeepSeek发布了最新一篇围绕DeepSeek-V3 的技术论文!标题是《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures 》
这篇论文探讨了DeepSeek-V3模型在扩展过程中面临的硬件挑战,并提出了一系列硬件与模型协同设计的解决方案。
大家知道,大语言模型(LLM)的快速扩展暴露了当前硬件架构的一些关键局限性,包括内存容量、计算效率和互连带宽。以DeepSeek-V3 为例,它是在2048 块NVIDIA H800 GPU 集群上进行训练,展示了硬件感知模型协同设计如何高效地应对这些限制,并最终实现了经济高效的大规模训练与推理。
因此,这项新研究并非重复DeepSeek-V3 的详细架构和算法细节,而是从硬件架构和模型设计的双重视角,探讨它们之间在实现经济高效的大规模训练和推理过程中复杂的相互作用。通过探究这种协同作用,研究者旨在提供切实可行的见解,以洞悉如何在不牺牲性能或可访问性的情况下高效扩展大语言模型。
总的来说,DeepSeek-V3通过硬件感知的模型设计(MLA、MoE、FP8)、网络优化(多平面拓扑)和算法创新(MTP),在有限硬件资源下实现了高效的大规模训练与推理。论文进一步呼吁学术界与工业界协同探索下一代硬件架构,以应对AI负载的持续增长。
更难能可贵的是,这次,DeepSeek创始人梁文峰也是这篇论文的署名作者之一。
我们刚阅读了论文,下面给大家划下重点:
|一、核心技术创新
内存优化
多头潜在注意力机制(MLA):通过投影矩阵压缩注意力头的Key-Value(KV)缓存,将每令牌的KV缓存从传统模型的数百KB降低至70.27 KB(如LLaMA-3.1 405B的516 KBDeepSeek-V3的70 KB),显著减少长上下文推理的内存需求。
低精度模型:采用FP8混合精度训练,相比BF16精度,权重内存占用减少50%,同时通过细粒度量化(如分块128×128)缓解硬件累积精度不足的问题。
MoE架构的成本效益
DeepSeekMoE:通过稀疏激活专家参数(如V3的671B参数中仅激活37B/令牌),实现计算资源的高效利用。训练成本为250 GFLOPS/令牌,远低于同等性能的密集模型(如LLaMA-405B的2448 GFLOPS/令牌)。
本地部署支持:MoE架构允许在消费级GPU服务器(如$10,000配置)上实现近20 TPS的推理速度,适合资源受限场景。
推理速度提升
多令牌预测(MTP):通过轻量级模块并行生成多个候选令牌,验证接受率达80%~90%,推理速度提升1.8倍。
计算-通信重叠:利用双微批次流水线,将注意力计算与专家并行通信重叠,最大化硬件利用率。
网络与硬件协同设计
多平面Fat-Tree网络:采用两层拓扑替代传统三层结构,降低集群网络成本,支持16,384 GPU扩展,同时隔离流量并提高鲁棒性。
低延迟优化:结合InfiniBand GPUDirect Async(IBGDA)绕过CPU代理,端到端延迟降低至微秒级(如跨交换机延迟3.7μs)。
|二、硬件瓶颈与未来建议
低精度计算支持。当前FP8训练的硬件限制包括累积精度不足(FP22寄存器)和细粒度量化的高开销。未来硬件需支持FP32累积精度和硬件级量化加速。
扩展与扩展融合。提出统一网络适配器、专用通信协处理器和动态带宽分配,以解决NVLink与InfiniBand带宽差异(如H800的NVLink带宽400GB/s vs. InfiniBand 50GB/s)导致的通信瓶颈。
网络架构改进。推荐RoCE增强:支持自适应路由(替代ECMP)、虚拟输出队列(VOQ)和硬件级拥塞控制,以降低大规模All-to-All通信的延迟。
内存带宽优化。建议采用3D堆叠DRAM(如SeDRAM)或晶圆级集成(System-on-Wafer),缓解Transformer类模型的内存墙问题。
表1 比较了DeepSeek-V3、Qwen-2.5 72B 和LLaMA-3.1 405B 中每个token 的KV 缓存内存占用情况。通过采用MLA,DeepSeek-V3 显著减少了KV 缓存大小,每个token 仅需70 KB,远低于LLaMA-3.1 405B 的516 KB 和Qwen-2.5 72B 的327 KB。
|三、实验验证与性能
KV缓存压缩:MLA将内存占用降低至传统GQA/MQA的1/7(如LLaMA-3.1的7.28倍DeepSeek-V3 1x)。
训练效率:在2048 H800 GPU集群中,多平面网络(MPFT)与多轨网络(MRFT)性能持平,模型浮点利用率(MFU)达43.73%。
推理极限:理论最优TPOT为14.76 ms(67 TPS),采用高带宽互联(如GB200 NVL72)可提升至0.82 ms(1200 TPS)。
总之,论文强调了硬件和模型协同设计,在满足日益增长的人工智能工作负载需求方面的关键作用,并为下一代人工智能系统的创新提供了切实可行的蓝图。
最后,大家可以一键传送原论文地址:https://arxiv.org/pdf/2505.09343
领取专属 10元无门槛券
私享最新 技术干货