首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek再开源力作:FP8通用矩阵乘法库DeepGEMM助力AI高效运算

近日,DeepSeek在开源周的活动中揭晓了其第三日的开源成果——DeepGEMM,这一项目引起了业界的广泛关注。

DeepGEMM是一个专为密集型和混合专家(MoE)通用矩阵乘法(GEMM)运算设计的FP8通用矩阵乘法库。它特别为V3/R1模型的训练和推理任务提供了强大的支持。这一开源库的出现,无疑为相关领域的研究者和开发者提供了一个高效且灵活的工具。

据DeepSeek介绍,DeepGEMM在英伟达Hopper系列GPU上的表现尤为出色,其FP8每秒万亿次浮点运算(TFLOPS)性能可高达1350以上。这一性能数据不仅展示了DeepGEMM的强大计算能力,也体现了其在处理大规模矩阵运算时的效率。

DeepGEMM的核心逻辑代码相当精炼,仅约300行。然而,尽管代码简洁,但在大多数矩阵规模下,其性能却超过了经过专家优化调整的内核。这一特点使得DeepGEMM在保持高效性的同时,也具备了良好的可读性和可维护性。

DeepGEMM还支持密集型布局以及两种混合专家(MoE)布局,这进一步拓展了其应用场景。无论是处理传统的密集型矩阵运算,还是应对复杂的混合专家模型,DeepGEMM都能够提供稳定且高效的计算支持。

DeepGEMM的即时编译功能也是其一大亮点。这一功能使得开发者能够在需要时快速编译并运行代码,从而大大提高了开发效率。同时,即时编译也有助于确保代码在不同硬件环境下的兼容性和稳定性。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OyCEzR5coyPMYlL7jTleJq1Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券