首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek开源周!已经发布7个开源项目!

DeepSeek不仅仅是开源了模型,也开源了大模型代码,是真正的“Open AI”。

1、开源第一弹:开源了首个代码库FlashMLA。

这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000 GB/s的内存带宽&580 TFLOPS的计算性能。”

项目地址

https://github.com/deepseek-ai/FlashMLA

2、开源第二弹:DeepEP, 第一个用于MoE模型训练和推理的开源EP通信库(expert parallelism,专家并行)。

DeepEP是为混合专家(MoE)和专家并行性(EP)量身定制的通信库。它为所有GPU内核提供高吞吐量和低延迟,也称为MoE调度和组合。该库还支持低精度操作,包括FP8。

为了与DeepSeek-V3论文中提出的组限制门控算法保持一致,DeepEP提供了一组针对非对称域带宽转发进行优化的内核,例如将数据从NVLink域转发到RDMA域。这些内核提供了高吞吐量,使其适用于训练和推理预填充任务。此外,它们还支持SM(流式多处理器)数字控制。

对于对延迟敏感的推理解码,DeepEP包含一组低延迟内核和纯RDMA,以最大限度地减少延迟。该库还引入了一种基于钩子的通信计算重叠方法,该方法不占用任何SM资源。

项目地址:

https://github.com/deepseek-ai/DeepEP

3、DeepSeek开源第三弹:开源FP8通用矩阵乘法库DeepGEMM

DeepGEMM是一个库,旨在实现干净高效的FP8通用矩阵乘法(GEMM),具有细粒度缩放,如DeepSeek-V3中所提出的。它支持普通和混合专家(MoE)分组GEMM。该库是用CUDA编写的,通过在运行时使用轻量级的实时(JIT)模块编译所有内核,在安装过程中不需要编译。

项目地址:

https://github.com/deepseek-ai/DeepGEMM

4、开源第四弹:一口气放出3个开源项目

DualPipe是DeepSeek-V3技术报告中介绍的一种创新的双向流水线并行算法。它实现了前向和后向计算通信阶段的完全重叠,也减少了管道气泡。

https://github.com/deepseek-ai/DualPipe

EPLB:专家级并行负载均衡器

当使用专家并行性(EP)时,不同的专家被分配到不同的GPU。由于不同专家的负载可能因当前工作负载而异,因此保持不同GPU的负载平衡非常重要。正如DeepSeek-V3论文中所述,我们采用了一种冗余专家策略,复制了负载繁重的专家。然后,我们启发式地将重复的专家打包到GPU上,以确保不同GPU之间的负载平衡。此外,由于DeepSeek-V3中使用的组限制专家路由,我们还试图将同一组的专家放置在同一节点上,以尽可能减少节点间的数据流量。

为了便于复制和部署,我们在eplb.py中开源了部署的EP负载平衡算法。该算法根据估计的专家负载计算平衡的专家复制和放置计划。

https://github.com/deepseek-ai/EPLB

profile-data是训练和推理框架的分析数据,以帮助社区更好地理解通信计算重叠策略和低级实现细节。

https://github.com/deepseek-ai/profile-data

5、开源第五弹:宣布开源3FS,所有Deepseek数据访问的助推器

一个高性能的分布式文件系统,旨在解决人工智能训练和推理工作负载的挑战。

项目地址:

- End -

分享一套.NetCore从入门到精通视频教程

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OIzJJVDJHcm_ejuNJHD0sxiw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券