首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek再开源!EP通信库引爆GPU性能新高度

在AI领域的最新动态中,DeepSeek开源周的第二波发布引发了广泛关注。此次发布的核心是一个专为混合专家(MoE)模型和专家并行(EP)通信设计的开源库——DeepEP。该库发布后不到一小时,就在GitHub上收获了上千颗星标。

DeepEP是专为MoE架构定制的通信解决方案,提供了高吞吐量和低延迟的全对全GPU内核,业内称之为MoE调度与合并。这些内核的设计旨在充分利用现代硬件的优势,提升MoE模型的训练和推理性能。

DeepEP的亮点包括:高性能通信支持,利用NVLink和RDMA实现节点内和节点间的数据传输;FP8低精度运算支持,降低计算需求;针对延迟敏感的推理任务,提供了基于RDMA的低延迟内核;引入基于钩子的通信与计算重叠方法,避免占用流式多处理器资源;以及自适应路由和虚拟通道流量隔离,进一步提升通信效率。

为了与DeepSeek-V3论文中提出的组限制门控算法保持一致,DeepEP还优化了非对称域带宽转发的内核。这些优化内核能够在NVLink域和RDMA域之间高效传输数据,适用于训练和推理预填充任务,并支持流式多处理器数量的控制。

对于对延迟敏感的推理任务,DeepEP提供了基于RDMA的低延迟内核,最大限度地减少了推理解码的延迟。该库引入的基于钩子的通信与计算重叠方法,无需占用任何流式多处理器资源,进一步提升了整体性能。

在具体性能测试中,DeepEP展示了令人瞩目的表现。在配备NVLink和RDMA网卡的H800设备上,DeepEP在常规内核和低延迟内核测试中均取得了优异的结果。这些测试遵循了DeepSeek-V3/R1的预训练和生产环境设置,验证了DeepEP在实际应用中的高效性。

DeepEP的快速启动要求包括下载并安装NVSHMEM依赖项,以及进行必要的开发和网络配置。该库提供了详细的安装指南和网络配置步骤,以及接口和示例代码,方便开发者快速上手。

DeepSeek发布的推文在短短一小时内浏览量高达12万,评论区充满了开发者们对DeepEP的赞誉。他们纷纷表示,DeepEP在MoE模型优化方面的成就令人惊叹,对NVLink和RDMA的支持为大规模MoE模型带来了变革性的影响。甚至有开发者制作了表情包,形象地表达了他们对DeepSeek和DeepEP的认可和期待。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OnC1csA-6qzDufzlxTrpwWLw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券