首页
学习
活动
专区
圈层
工具
发布

美团首个开源大模型!5600亿个参数,推理速度比DeepSeek-V3快50%

9月1日,美团发布了其首款开源大模型LongCat-Flash,这是一款拥有5600亿个总参数的MoE(混合专家)模型。

推理速度是这一模型最大的特点之一。美团称,这一模型具备快捷连接架构,扩展了计算-通信重叠窗口,实现了每秒超过100个token的推理速度,理论每token输出时间相比DeepSeek-V3降低近50%。

在输出价格和速度上,美团的新模型优势实在是太明显了。

先说价格,每百万token输出成本为0.7美元,换算过来就是5元人民币,直接把价格砍到个位数。

再说速度, LongCat能跑到100token每秒的token输出速度。背着几百亿的激活参数,要想达到这个速度和成本,模型需要极致的推理效率优化。

你看,自从GPT-5发布后,大模型又开始了新一波的性价比PK。

美团的新模型就是这样一个思路,你可以看到,它在测试中性能和当前最领先的模型都性能接近,而在指令遵循方面表现尤为突出,在多项国际测试里评分中超过了DeepSeek v3.1等模型。

上手测试了美团这个模型后,我们发现输出速度真的很快。比如,让它分析“美团过去三年大模型的发布回顾并给出分析”,它一口气给出了超长答案,直观感受就是无卡顿的流畅输出。

美团的龙猫大模型为什么能这么快?秘诀就在充足算力资源和推理效率上。

我们查阅了技术报告,可以看到美团在提升推理效率上,做了不少工作:

这里面最值得关注的,是零计算专家(Zero-Computation Experts)机制。它的原理就是针对输入上下文内容的复杂程度做划分,比如简单的词、标点、数字,它会把这部分单独拎出来,不参与计算,直接返回到输出中;而像是“未来趋势”等复杂、指令不明的词,模型再调动更多资源去分析。

这样执行下来,模型调动的计算资源会比原来少很多。报告中提到,龙猫大模型处理每个token,只需要动态激活186亿至313亿的参数(平均约270亿),这样就把模型的推理效率提上去了,也就让推理速度更快、成本更低。

再有,在计算架构上,龙猫大模型引入了ScMoE(ShortCut-Cnnected MoE,快捷连接MoE)架构,这种模式改变了MoE专家并行结构,需要先把token给到对应专家,再计算的顺序结构。通过快捷连接,让前一层的计算和下一层token信息分配同时进行,这样也就大幅提升了训练和推理的效率。

而且,龙猫大模型是在数万个加速器上训练出来的,短短30天内完成超过20万亿词元的训练量,不管怎么看都太牛了!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OLML7LGV1JRcQLI4zzCkwhBg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券