首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek 开源第二天:DeepEP,AI 训练和推理的超级 “加速器”

家人们,昨天 DeepSeek 开源了专为 Hopper GPU 而生的 FlashMLA,今天又有大动作啦!DeepSeek 开源计划第 2 天,推出了 DeepEP,这可太让人惊喜了!

开源内容如下:

DeepSeek开源计划第 2 天:推出DeepEP

很高兴介绍 DeepEP——第一个用于 MoE 模型训练和推理的开源 EP 通信库。

高效、优化的全员沟通

节点内和节点间均支持 NVLink 和 RDMA

用于训练和推理预填充的高吞吐量内核

用于推理解码的低延迟内核

原生 FP8 调度支持

灵活的GPU资源控制,实现计算-通信重叠

GitHub地址:https://github.com/deepseek-ai/DeepEP

接下来我用简单通俗的语言给大家解释一下本期开源的内容:

DeepEP 是第一个用于 MoE 模型训练和推理的开源 EP 通信库 。啥意思呢?简单来说,它就像是一个超级助手,专门帮助 MoE 模型在训练和推理的时候更顺畅。

它有好多厉害的地方呢!首先,它的全员沟通特别高效还做了优化,不管是在节点内还是节点间,都支持 NVLink 和 RDMA,就好像给模型训练和推理搭建了一条超快速的信息高速公路,信息传递又快又稳。

它还有高吞吐量内核,专门用来做训练和推理预填充,就好比给汽车加满油,让训练和推理一开始就能快速启动。在推理解码的时候,它又有低延迟内核,能让解码速度超级快,一点都不卡顿。

现在大家都很关注的原生 FP8 调度,它也支持,这就像是给模型训练和推理找到了一个更智能的调度员,能把任务安排得明明白白。

而且呀,它还有灵活的 GPU 资源控制,能实现计算 - 通信重叠,就像一个厉害的管家,把 GPU 资源管理得井井有条,让计算和通信同时进行,大大提高了效率。

DeepSeek 这波开源操作真的太给力了,昨天的 FlashMLA,今天的 DeepEP,感觉未来在 AI 领域,又要因为这些开源项目发生好多有意思的变化呢!家人们要是对这方面感兴趣,赶紧关注起来,一起见证 AI 技术的飞速发展!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OVvm2FmIx91PR7v75dEMUldQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券