首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Deepseek开源周第二天,炸裂开源用于混合专家模型训练和推理的DeepEP

昨天周一,Deepseek开源周第一天,开源了经过实际业务检验的内核级代码FlashMLA,自爆低成本秘籍引爆AI圈。

FlashMLA是专为英伟达Hopper架构GPU设计的多头线性注意力解码内核,性能亮眼。开源周的第一天就拿出了这么炸裂的代码,我都惊呆了,Deepseek可是打算开源5个代码库啊,第一天就如此惊艳,后面四天的开源计划引起了人们的期待。

今天,第二天来了,Deepseek按时发布新的开源消息,看不懂没关系,大部分人包括小编我也不是行业专家,我们知道这有什么用就行。

上午10:24分,Deepseek发布一个用于MoE模型训练和推理的EP通讯库,这个通讯库有5大优点,高效且优化的全对全通信、支持节点内(intranode)和节点间(internode)的 NVLink 和 RDMA、用于训练和推理预填充的高吞吐量内核、用于推理解码的低延迟内核、原生 FP8分派支持、灵活的GPU资源控制,实现计算与通信的重叠。

DeepEP这个开源通信库的主要用途是提升MoE(Mixture of Experts,专家混合模型)在训练和推理过程中的效率和性能。

又是一个提高效率和性能的库,Deepseek公司真是效率大王,我认为在底层的芯片的利用方面,Deepseek公司比自称效率之王的马斯克更加注重效率。

马斯克用20万张英伟达H100显卡训练的Grok3,实测综合评分之比Deepseek高那么一点点,老马真是吃了没有算法技术的亏,要是Deepseek公司来训练Grok3,根本就不需要那么多计算资源。

Deepseek公司不止有硬核的技术实力,更重要的是Deepseek那颗和世界共享技术的赤子之心,创始人梁文锋曾表示:“我们要成为世界进步的贡献者。”

当OpenAI不Open的时候,Deepseek Open,当马斯克慢开源、模型厂家假开源的时候,Deepseek火速开源,直接来真的。

才知道技术不会自己进步,而是有人在推动着它前行。

就像Deepseek团队说的那样:“我们相信分享的每一行代码都会成为一股共同前进的动力,加速人类迈向AI智能时代的旅程。”

关注我,常联系。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OmjzE57e9mu7Z_Nc6qLVBeyA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券