文 I 海伦
编辑 I 萌萌
9月1日消息,美团于今日正式发布 LongCat-Flash-Chat,并同步开源。据官方介绍,LongCat-Flash采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数560B,激活参数18.6B-31.3B(平均 27B)。据多项基准测试综合评估,LongCat-Flash-Chat在仅激活少量参数的前提下,在智能体任务中具备突出优势,同时推理速度超过100tps。
LongCat-Flash 最大的特点是“会挑活干”。
根据官方介绍,LongCat-Flash 的关键创新是引入了 “零计算专家”机制。简单来说,不是每个词都需要同样的算力,模型会自动判断哪些词更重要,然后只为这些“重点词”来分配算力。这样一来,总参数虽大(5600亿),但每次计算只动用 270亿级别的参数,推理更快、更省钱。
根据官方数据显示:生成100万 token的成本低至5 元,相比主流商业模型(如 Claude、Grok、OpenAI的中高端版本)等,有价格优势。
LongCat-Flash 架构图
同时,LongCat-Flash-Chat还解决了 MoE 模型常见的“通信瓶颈”问题,采用快捷连接MoE(ScMoE) 和底层系统优化,让模型可以在数万块加速卡上稳定训练,并实现高吞吐+低延迟的推理体验。
LongCat-Flash-Chat 在多项公开评测中的成绩已经公布。与常见的“大而全”模型不同,这一模型采用“非思考型”设计,每次推理只激活一部分参数,但依然能跑出接近主流模型的效果。因为强调推理效率,它尤其适合运行时间长、步骤复杂的智能体类应用。
在通用知识与语言理解方面,在知识和语言理解相关的测试中,LongCat-Flash 的分数处于前列:ArenaHard-V2:86.50,排名第二;MMLU:89.71;CEval(中文):90.44。这些分数接近国内一些领先产品,而 LongCat-Flash 的参数规模比 DeepSeek-V3.1等大模型更小。
在与“智能体”相关的评测中,LongCat-Flash-Chat 在工具使用和复杂场景任务中表现更为明显:τ2-Bench(工具使用)超过了部分更大规模的模型;VitaBench(复杂场景)得分 24.30,排在第一。这说明在涉及多工具调用或多步骤交互的任务中,LongCat-Flash 具备一定效率优势。
在编程和工程类测试中:TerminalBench:39.51,排名第二;SWE-Bench-Verified:60.4。
整体成绩处于中上水准,可以覆盖常见的编程任务。
在指令执行方面:IFEval(英文指令):89.65,排名第一;COLLIE(中文指令):57.10,最佳成绩;Meeseeks-zh(中文多场景指令):43.03,最佳成绩。这表明模型在中英文指令集上都有较强的适配性。
图:LongCat-Flash-Chat在多项公开评测中的成绩
今年3月,美团董事长王兴曾在财报电话会议上首次披露自主研发的生成式大语言模型“LongCat”。当时,这一模型主要用于公司内部,服务于员工效率提升,并被集成到 AI 编码、智能会议、文档助手和平面设计等工具中。
几个月后,LongCat 的身影开始出现在大众面前。6月10日,美团推出了基于该模型的首款编程工具 “NoCode”。
此次,美团宣布开源 LongCat-Flash,整体而言,这一款在架构上有创新、在特定任务上表现突出的大型语言模型,核心价值在于通过动态计算分配和通信-计算并行化设计,实现了效率与性能的平衡。
然而,模型在某些细分领域可能不如专项优化模型,且部署要求较高,生态成熟度也有待提升,其长期影响和实际应用效果仍需观察。