DeepSeek 开源第二天：DeepEP，AI 训练和推理的超级 “加速器”

文章来源：企鹅号 - 爱尚学院

家人们，昨天 DeepSeek 开源了专为 Hopper GPU 而生的 FlashMLA，今天又有大动作啦！DeepSeek 开源计划第 2 天，推出了 DeepEP，这可太让人惊喜了！

开源内容如下：

DeepSeek开源计划第 2 天：推出DeepEP

很高兴介绍 DeepEP——第一个用于 MoE 模型训练和推理的开源 EP 通信库。

高效、优化的全员沟通

节点内和节点间均支持 NVLink 和 RDMA

用于训练和推理预填充的高吞吐量内核

用于推理解码的低延迟内核

原生 FP8 调度支持

灵活的GPU资源控制，实现计算-通信重叠

GitHub地址：https://github.com/deepseek-ai/DeepEP

接下来我用简单通俗的语言给大家解释一下本期开源的内容:

DeepEP 是第一个用于 MoE 模型训练和推理的开源 EP 通信库。啥意思呢？简单来说，它就像是一个超级助手，专门帮助 MoE 模型在训练和推理的时候更顺畅。

它有好多厉害的地方呢！首先，它的全员沟通特别高效还做了优化，不管是在节点内还是节点间，都支持 NVLink 和 RDMA，就好像给模型训练和推理搭建了一条超快速的信息高速公路，信息传递又快又稳。

它还有高吞吐量内核，专门用来做训练和推理预填充，就好比给汽车加满油，让训练和推理一开始就能快速启动。在推理解码的时候，它又有低延迟内核，能让解码速度超级快，一点都不卡顿。

现在大家都很关注的原生 FP8 调度，它也支持，这就像是给模型训练和推理找到了一个更智能的调度员，能把任务安排得明明白白。

而且呀，它还有灵活的 GPU 资源控制，能实现计算 - 通信重叠，就像一个厉害的管家，把 GPU 资源管理得井井有条，让计算和通信同时进行，大大提高了效率。

DeepSeek 这波开源操作真的太给力了，昨天的 FlashMLA，今天的 DeepEP，感觉未来在 AI 领域，又要因为这些开源项目发生好多有意思的变化呢！家人们要是对这方面感兴趣，赶紧关注起来，一起见证 AI 技术的飞速发展！

相关快讯