文章/答案/技术大牛

发布

重磅消息！DeepSeek 开源周第1天就扔出了一个重磅炸弹：FlashMLA

文章来源：企鹅号 - 粽子技能谷

大家好，我是吴哥，头部AI社群合伙人| AI工具赋能专家。

就在今天早上，DeepSeek 开源周第一天就扔出了一个重磅炸弹——FlashMLA，

官方内容翻译

开源周第1天：FlashMLA

很荣幸与大家分享 FlashMLA —— 这是我们为 Hopper GPU 优化的高效 MLA 解码内核，专为可变长度序列设计，现已在生产环境中使用。

支持 BF16

分页 KV 缓存（块大小 64）

在 H800 上实现 3000 GB/s 内存带宽和 580 TFLOPS 计算能力

GitHub 链接：https://github.com/deepseek-ai/FlashMLA

简单理解：一个专为 Hopper GPU 优化的高效 MLA 解码内核。这玩意儿已经在生产环境中跑起来了，支持 BF16、搞了个分页 KV 缓存（块大小 64），在 H800 上跑出了3000 GB/s 的内存带宽和580 TFLOPS 的计算能力。有朋友疑惑，啥？还是没懂！3000 GB/s听起来感觉牛逼样子。别急，往下看吴哥的分享。

FlashMLA 是个啥？

先搞清楚这东西的来头。FlashMLA 是 DeepSeek 为Multi-head Latent Attention（MLA，多头潜注意力）打造的解码内核。MLA 是 DeepSeek 在 V2 和 V3 模型里搞出来的新技术，简单说就是一种改进的注意力机制，目标是提升推理效率、降低训练成本。通俗讲，FlashMLA 的价值在于，让 AI 模型在处理复杂任务（比如生成长文本）时，既能保持高性能，又能节省资源。尤其是在需要处理可变长度数据时，FlashMLA 的优化让它跑得特别顺畅。

所以说，这次开源，DeepSeek 等于把自家看家本领亮出来了：一个经过实战检验的高效内核。

难怪海外网友纷纷评论夸赞：“深度探索（Deepseek）才是真正的开放人工智能。”

H800 上的表现有多猛？

Hopper GPU 是英伟达最新的架构，H800 是面向中国市场的版本。因为出口限制（贸易限制，你懂的），H800 的硬件性能被阉割了，官方内存带宽大概是1.6 TB/s（1600 GB/s），FP16/BF16 算力也比旗舰 H100（989 TFLOPS）低不少。但 FlashMLA 在 H800 上居然跑出了3000 GB/s 的内存带宽和580 TFLOPS 的计算能力，这咋回事？

•3000 GB/s 内存带宽：这比 H100 的标准带宽（2000 GB/s）还高！这里的数字应该不是 GPU 整体带宽，而是 FlashMLA 在 MLA 解码任务上的优化结果。很可能通过算法和软件层面的黑科技，提升了内存访问效率，变相突破了硬件瓶颈。

•580 TFLOPS 计算能力：同样，这不是 GPU 的峰值算力，而是 MLA 解码的专用吞吐量。相比 H100 的 989 TFLOPS，显然它不算顶级，但对于特定任务来说已经很强了。

从数据上可以看出，FlashMLA 不是靠硬件堆性能，而是用算法优化来榨干了 H800 的潜力。这让我不禁感慨：你硬件限制我，我在软件算法优化上突破瓶颈！你说牛不牛？

BF16 和分页 KV 缓存：硬核优化细节

官方还塞了两个硬核功能：

•BF16 支持：BF16（Brain Float 16）是 AI 圈的宠儿，低精度浮点格式能在不牺牲太多精度的情况下提升性能、降低内存占用。支持 BF16 意味着 FlashMLA 能充分利用 Hopper GPU ，跑得更快、更省。

•分页 KV 缓存（块大小 64）：分页设计让内存管理更高效，尤其在处理变长序列（比如长文本生成）时，能减少碎片、提升缓存命中率。这优化听起来简单，实际效果杠杠的！

以上技术知识没理解没关系。你只要知道，这两个特性加起来，让FlashMLA既快又稳，专为大规模推理场景量身打造。

DeepSeek 开源意义

开源 FlashMLA，很明显DeepSeek 在秀肌肉：

1.技术自信：这内核性能亮眼、生产可用，证明了国人的研发实力。

2.社区赋能：开源后，开发者可以直接用，还能学习、改进，推动整个 AI 圈进步。

3.战略布局：通过开源吸引更多人关注和使用 DeepSeek 的技术，慢慢建一个以他们为核心的 AI 生态。既提升影响力，又能借社区力量加速迭代。

对 AI 社区的意味

FlashMLA 的开源，给AI 社区传来重大利器。开发者们可以：

•直接用：集成到自己的项目，立马提升推理性能。

•学习：研究 DeepSeek 的优化技巧，偷师几招用到别处。

•改进：基于 FlashMLA 搞二次开发，说不定能整出更牛的东西。

长远看，这会加速大模型的普及，尤其是在资源有限的场景下。高效推理内核能让更多人玩得起 AI，技术门槛降低了。

结语

第一天就放出 FlashMLA 这级别的猛料，我们期待DeepSeek 后面几天的大招。

你觉得 FlashMLA 怎么样？欢迎留言聊聊你的想法！接下来的开源周，跟着吴哥一起盯着 DeepSeek，期待更多的猛料！

今天吴哥干货就分享到这啦！

（在碎片化阅读时代，如果你阅读到了这里，请为自己点个赞吧~）

我是吴哥，专注于AI赋能战略思维训练，专注孵化并影响10000人构建自己智能时代核心竞争力。

要是觉得今天这碗饭喂得够香，随手点个赞、在看、转发三连吧！如果想第一时间收到推送，也可以用⭐星标把我焊死在你主页哈！

彩蛋

吴哥建立了AI知识库宝藏材料，包含清华大学5个版本PPT资料。欢迎感兴趣朋友扫码加入学习，一起破局！

发表于: 2025-02-242025-02-24 12:57:13
原文链接：https://page.om.qq.com/page/OAiH1Zf2qDtVH-tprWzGNmYw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

重磅消息！DeepSeek 开源周第1天就扔出了一个重磅炸弹：FlashMLA

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐