首页
学习
活动
专区
圈层
工具
发布

天啊噜,蚂蚁开源万亿参数模型?怎么看

技术亮点

1. 混合线性注意力架构

• 1:7 MLA + Lightning Linear Attention 结构

• 总参数 1T,激活参数 63B(比前代 51B 提升)

• 长序列推理吞吐显著优于 KIMI K2(32B 激活参数)​

2. 深度思考模式(Heavy Thinking)

• 通过并行思考与总结实现测试时扩展

• 在软件工程基准(如 SWE-Bench Verified)上达到开源领先水平 。

值得注意

“作为迈向通用智能体时代的关键步骤,

我们将混合线性注意力架构,

在预训练和强化学习上均进行了大规模扩展,

一方面利用高效的 1:7 MLA + Lightning Linear Attention 架构,

来提升模型的思考效率和探索空间,

另一方面通过扩展强化学习和智能体环境规模,

来提升模型的思考深度和长程执行能力。”

这段话已经非常准确地概括了本质:

没有革新级别的的技术架构和创新,

他们实践出比较好的混合线性注意力的比例分配,

然后,类似地进行了面向智能体的适配。

将Ring-2.5-1T接入,

Claude Code智能体框架,

测试长程软件开发能力,

实际上,是在验证:

1. Agent 时代的基础模型选择

万亿参数模型在真实编程场景中的实用性。

2. 长上下文效率

混合线性架构是否能解决传统Transformer性能瓶颈。

3. 开源 vs 闭源

与闭源模型的对比 。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OY1kPNW2beubTWLcAR51KFIw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券