家人们,昨天 DeepSeek 开源了专为 Hopper GPU 而生的 FlashMLA,今天又有大动作啦!DeepSeek 开源计划第 2 天,推出了 DeepEP,这可太让人惊喜了!
开源内容如下:
DeepSeek开源计划第 2 天:推出DeepEP
很高兴介绍 DeepEP——第一个用于 MoE 模型训练和推理的开源 EP 通信库。
高效、优化的全员沟通
节点内和节点间均支持 NVLink 和 RDMA
用于训练和推理预填充的高吞吐量内核
用于推理解码的低延迟内核
原生 FP8 调度支持
灵活的GPU资源控制,实现计算-通信重叠
GitHub地址:https://github.com/deepseek-ai/DeepEP
接下来我用简单通俗的语言给大家解释一下本期开源的内容:
DeepEP 是第一个用于 MoE 模型训练和推理的开源 EP 通信库 。啥意思呢?简单来说,它就像是一个超级助手,专门帮助 MoE 模型在训练和推理的时候更顺畅。
它有好多厉害的地方呢!首先,它的全员沟通特别高效还做了优化,不管是在节点内还是节点间,都支持 NVLink 和 RDMA,就好像给模型训练和推理搭建了一条超快速的信息高速公路,信息传递又快又稳。
它还有高吞吐量内核,专门用来做训练和推理预填充,就好比给汽车加满油,让训练和推理一开始就能快速启动。在推理解码的时候,它又有低延迟内核,能让解码速度超级快,一点都不卡顿。
现在大家都很关注的原生 FP8 调度,它也支持,这就像是给模型训练和推理找到了一个更智能的调度员,能把任务安排得明明白白。
而且呀,它还有灵活的 GPU 资源控制,能实现计算 - 通信重叠,就像一个厉害的管家,把 GPU 资源管理得井井有条,让计算和通信同时进行,大大提高了效率。
DeepSeek 这波开源操作真的太给力了,昨天的 FlashMLA,今天的 DeepEP,感觉未来在 AI 领域,又要因为这些开源项目发生好多有意思的变化呢!家人们要是对这方面感兴趣,赶紧关注起来,一起见证 AI 技术的飞速发展!
领取专属 10元无门槛券
私享最新 技术干货