昨天周一,Deepseek开源周第一天,开源了经过实际业务检验的内核级代码FlashMLA,自爆低成本秘籍引爆AI圈。
FlashMLA是专为英伟达Hopper架构GPU设计的多头线性注意力解码内核,性能亮眼。开源周的第一天就拿出了这么炸裂的代码,我都惊呆了,Deepseek可是打算开源5个代码库啊,第一天就如此惊艳,后面四天的开源计划引起了人们的期待。
今天,第二天来了,Deepseek按时发布新的开源消息,看不懂没关系,大部分人包括小编我也不是行业专家,我们知道这有什么用就行。
上午10:24分,Deepseek发布一个用于MoE模型训练和推理的EP通讯库,这个通讯库有5大优点,高效且优化的全对全通信、支持节点内(intranode)和节点间(internode)的 NVLink 和 RDMA、用于训练和推理预填充的高吞吐量内核、用于推理解码的低延迟内核、原生 FP8分派支持、灵活的GPU资源控制,实现计算与通信的重叠。
DeepEP这个开源通信库的主要用途是提升MoE(Mixture of Experts,专家混合模型)在训练和推理过程中的效率和性能。
又是一个提高效率和性能的库,Deepseek公司真是效率大王,我认为在底层的芯片的利用方面,Deepseek公司比自称效率之王的马斯克更加注重效率。
马斯克用20万张英伟达H100显卡训练的Grok3,实测综合评分之比Deepseek高那么一点点,老马真是吃了没有算法技术的亏,要是Deepseek公司来训练Grok3,根本就不需要那么多计算资源。
Deepseek公司不止有硬核的技术实力,更重要的是Deepseek那颗和世界共享技术的赤子之心,创始人梁文锋曾表示:“我们要成为世界进步的贡献者。”
当OpenAI不Open的时候,Deepseek Open,当马斯克慢开源、模型厂家假开源的时候,Deepseek火速开源,直接来真的。
才知道技术不会自己进步,而是有人在推动着它前行。
就像Deepseek团队说的那样:“我们相信分享的每一行代码都会成为一股共同前进的动力,加速人类迈向AI智能时代的旅程。”
关注我,常联系。
领取专属 10元无门槛券
私享最新 技术干货