🧠10:24|全球最新AI动态准时上线,热点资讯一手掌握,让效率提升从现在开始!
嘿,AI领域的探索者们!今天,一个激动人心的消息来啦!美团团队重磅发布了他们的大型智能体混合专家(MoE)模型——LongCat-Flash,并且已经正式开源!这不仅是技术实力的展现,更是为整个AI社区贡献了一份宝贵的财富。如果你正关注大模型推理的效率与成本,那么接下来的内容绝对不容错过!
美团LongCat-Flash:智能体任务的“闪电”选手
美团LongCat团队带来的这款LongCat-Flash模型,目前已在Hugging Face上开源,其强大特性令人瞩目:
•参数规模庞大:总参数量高达5600亿!
•动态激活机制:每个token平均激活参数量仅为186亿至313亿(平均约270亿),实现了高效的稀疏激活。
•专家网络配置:拥有512个FFN专家和256个零计算专家。
•创新架构:采用Shortcut-Connected Structure(ScMoE)实现计算-通信重叠,并结合多头潜在注意力(MLA)机制。
实测数据显示,LongCat-Flash作为一款非思辨型基础模型,在激活少量参数的情况下,性能可与众多主流领先模型媲美,尤其在智能体任务中表现出众。更重要的是,其针对推理效率的独特设计与创新,使其推理速度显著提升,非常适合需要复杂且时间敏感的智能体应用。
模型与系统协同设计:为什么如此关键?
正如美团技术报告中所指出的,一个典型的基于ReACT的智能体系统,因其多轮对话的特性,对预填充(Prefill)和解码(Decode)速度都有着极高的要求。传统方法在吞吐量(处理大量请求)和延迟(单个请求响应速度)之间往往需要权衡。
•预填充优化:美团团队发现,模型中并非每个token都需要同等量的激活参数。基于这一洞察,他们设计了动态激活功能,在保持模型性能的同时,将每个token的激活参数控制在较低水平,这对于降低预填充计算成本至关重要。
•解码优化:MoE模型的高稀疏性,通常需要大批量处理来提升GEMM(通用矩阵乘法)的计算强度。虽然宽专家并行(EP)可以增加HBM以获得更大的KV缓存,有效扩大批处理规模,但通信开销会成为瓶颈。有专家指出,DeepSeek V3/SGLang的TBO(Two Batch Overlap)虽能减少延迟,但在小批量或单个请求时效果不佳。
划重点!LongCat-Flash通过模型与系统的协同设计,特别是ScMoE架构,巧妙地打破了吞吐量与延迟之间的固有矛盾,实现了双重优化。同时,ScMoE还能将节点内(通过NVLink)的张量并行通信与节点间(通过RDMA)的专家并行通信完全重叠,从而最大化网络利用率。
美团的“王牌组合”:SGLang + PD解耦 + SBO + 宽专家并行
为了将LongCat-Flash的潜力发挥到极致,美团团队祭出了多项技术大招:
1. PD解耦(PD Disaggregation)
为独立优化预填充和解码阶段,LongCat-Flash采用了PD解耦架构。基于SGLang的PD解耦,他们开发了层级传输方案,这一创新显著降低了高QPS(每秒查询数)负载下的首token时间(TTFT)。
2. 单批次重叠(SBO - Single Batch Overlap)
SBO是一种四阶段流水线执行策略,通过模块级重叠,将通信开销巧妙地隐藏在单个批次内部。与TBO不同,SBO能在单批次内完成所有重叠,从而同时提升吞吐量并降低延迟。
•核心思路:将复杂的注意力处理拆分,通过精心编排,让每个阶段的计算与通信相互覆盖。例如,在第二阶段,所有到所有(all-to-all)的分发与稠密FFN和注意力0(QKV投影)重叠,有效应对过度的通信开销。
3. 宽专家并行(Wide Expert Parallelism)
在SBO的加持下,尽管扩大EP规模和增加批次大小会带来更高的通信开销,但这些通信可以通过稠密路径计算进行重叠。在MoE计算达到计算瓶颈之前,扩大EP规模和批次大小能有效缩短MoE计算时间,从而通过更宽的EP配置获得性能收益。值得一提的是,他们采用了DeepEP进行MoE的分发和组合通信,与SGLang的实现类似。
4. 其他优化
•多步重叠调度器:为改善GPU利用率,SGLang实现了重叠调度器。然而,实验结果揭示,LongCat-Flash前向传递的低延迟可能导致单步预调度策略不足以完全消除调度开销。因此,美团实施了多步重叠调度器,确保GPU持续处于占用状态。
•多token预测(MTP):为实现最佳推理性能,MTP头部采用单个稠密层而非MoE层。由于LongCat-Flash的MTP轻量级特性,单独调度验证内核和草稿前向传递会带来显著开销。为缓解此问题,团队采用了TVD融合策略,将Target forward、Verification和Draft forward融合到一个CUDA图中。
性能一览:成本更低,速度更快!
LongCat-Flash在成本和延迟方面都取得了显著进展:
•吞吐量优化场景:理论成本不到同类(或更小)模型的50%。
•延迟优化场景:SBO的批内优化实现了极低的延迟。
基准测试显示:
• 与DeepSeek V3相比,LongCat-Flash在生成速度方面表现更优。
• 在NVIDIA H800平台上,实现了吞吐量与延迟的完美平衡,以极具竞争力的成本达到100 tps(每秒token数)。
如何部署LongCat-Flash?SGLang来帮你!
美团强烈建议使用SGLang部署LongCat-Flash。通过与SGLang社区的紧密合作,LongCat-Flash从发布之初就获得了SGLang的全面支持。对于5600亿参数的LongCat-Flash,部署需要一定的硬件资源:
•FP8权重:至少一台配备8块H20-141G GPU的节点。
•BF16权重:至少两台配备16块H800-80G GPU的节点。
详细的安装和部署配置(单节点或多节点)以及如何启用多token预测(MTP),都可以参照其官方指南进行操作。LongCat-Flash的部署简化了,但性能却不打折!
结语
LongCat-Flash的成功,是美团团队与SGLang团队、Mooncake团队、NVIDIA TensorRT-LLM以及其他开源社区共同努力的成果。它不仅展示了MoE模型在智能体应用上的巨大潜力,更通过一系列精巧的系统级优化,为大规模AI模型的部署与高效运行提供了新的范式。
未来,美团团队计划继续与SGLang团队紧密合作,将这些基于SGLang的优化逐步贡献给开源社区,持续推动AI技术的发展。期待LongCat-Flash能激发更多创新,让AI的触角延伸到更广阔的领域!
觉得这篇文章有用?别忘了点赞、分享给你的AI同行们!关注我们,第一时间获取前沿AI技术解读和深度行业洞察,一起探索人工智能的无限可能!
包括:
•常用自动化工作流模板
•邮件、社交媒体、数据同步集成
•高效办公与团队协作流程
•自定义触发器与节点组合示例……
适合:企业用户、团队负责人、开发者、效率爱好者
领取方式: