文|乔巴
编辑|沈月
9月22日,美团发布高效推理模型 LongCat-Flash-Thinking。官方资料显示,新模型在逻辑、数学、代码与智能体等多类推理任务的公开评测中达到开源模型的前列水平,部分项目接近闭源模型表现;模型已在 Hugging Face与GitHub开源,并提供在线体验。
据介绍,LongCat-Flash-Thinking在训练与推理流程上采用领域并行与异步流水线等技术方案,并通过“双路径推理框架”提升工具调用与智能体任务处理效率;同时引入面向形式化定理证明的数据合成流程,以强化形式化推理能力。
图1:LongCat-Flash-Thinking 的训练流程(资料图)
在公开基准测试上,该模型在 ARC-AGI 测试中得分50.3;在编程评测 LiveCodeBench 上得分79.4;在 τ2-Bench-Airline 智能体任务中得分67.5;在 MiniF2F-test 形式化数学基准上,pass@1 为67.6。此外,在 AIME25 的工具增强推理场景中,在保证约90%准确率的前提下,相比不调用工具可节省约64.5%的Token消耗。
图2:LongCat-Flash-Thinking在推理基准测试上的平均性能比较(资料图)
此前,9月初美团开源了“龙猫”系列的LongCat-Flash-Chat模型,被官方定位为一款“非思考型”的通用模型,主打高吞吐与推理速度,适合需要长时间交互的复杂 Agent 场景;发布后因推理体验“快”受到关注。LongCat-Flash-Thinking继承了“快”的特性,并进一步聚焦面向高复杂度任务强化推理能力。目前,LongCat-Flash-Thinking已开源并可在线体验。