技术亮点
1. 混合线性注意力架构
• 1:7 MLA + Lightning Linear Attention 结构
• 总参数 1T,激活参数 63B(比前代 51B 提升)
• 长序列推理吞吐显著优于 KIMI K2(32B 激活参数)
2. 深度思考模式(Heavy Thinking)
• 通过并行思考与总结实现测试时扩展
• 在软件工程基准(如 SWE-Bench Verified)上达到开源领先水平 。
值得注意
“作为迈向通用智能体时代的关键步骤,
我们将混合线性注意力架构,
在预训练和强化学习上均进行了大规模扩展,
一方面利用高效的 1:7 MLA + Lightning Linear Attention 架构,
来提升模型的思考效率和探索空间,
另一方面通过扩展强化学习和智能体环境规模,
来提升模型的思考深度和长程执行能力。”
这段话已经非常准确地概括了本质:
没有革新级别的的技术架构和创新,
他们实践出比较好的混合线性注意力的比例分配,
然后,类似地进行了面向智能体的适配。
将Ring-2.5-1T接入,
Claude Code智能体框架,
测试长程软件开发能力,
实际上,是在验证:
1. Agent 时代的基础模型选择
万亿参数模型在真实编程场景中的实用性。
2. 长上下文效率
混合线性架构是否能解决传统Transformer性能瓶颈。
3. 开源 vs 闭源
与闭源模型的对比 。