首页
学习
活动
专区
圈层
工具
发布

GLM-5.1全面进化,紧逼Opus 4.6

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区,始终坚持“中立、开放、共建、共创、合作”五项基本原则,欢迎加入共同成长。

2025年4月8日,智谱AI正式发布新一代旗舰大模型GLM-5.1。作为GLM-5的增量升级版本,GLM-5.1是智谱迄今为止智能度排名最高的模型,也是全球领先的开源大模型之一。该模型在代码能力、长程任务执行和工程交付三个维度实现了显著突破,标志着国产大模型从“单轮对话智能”向“长程自主执行”的关键跃迁。

GLM-5.1的核心定位是旗舰基座模型,支持文本输入输出,上下文窗口达到200K Tokens,最大输出能力为128K Tokens。在综合能力与Coding能力上,GLM-5.1整体表现对齐Claude Opus 4.6,并在长程自主执行、复杂工程优化与真实开发场景中展现出更强的持续工作能力,成为构建Autonomous Agent与长程Coding Agent的理想基座。GLM-5.1已经在始智AI wisemodel开源社区发布,欢迎前往了解详情。

模型地址

https://wisemodel.cn/models/ZhipuAI/GLM-5.1

01.

模型架构与参数

GLM-5.1延续了GLM-5的MoE(混合专家)架构设计,总参数量达到7440亿,每次推理时激活约400-440亿参数。这种架构设计在保持强大模型能力的同时,通过动态激活专家网络有效控制了推理成本,使模型能够在有限算力下实现高效部署。

作为增量升级版本,GLM-5.1在基础架构上与GLM-5保持一致,重点通过增强的后训练流程实现了能力跃升。智谱AI的研发团队针对编程与推理能力进行了专项优化,使得模型在真实开发场景中的表现得到了质的提升。

02.

核心能力提升

2.1 综合与Coding能力:对齐全球顶尖水平

GLM-5.1在综合能力与Coding能力上达到全球第一梯队水平。在SWE-Bench Pro基准测试中,GLM-5.1取得58.4的成绩,超越GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro,刷新全球最佳表现。SWE-Bench Pro是衡量模型解决真实软件工程问题能力的重要基准,这一成绩充分证明了GLM-5.1在复杂编程任务中的卓越能力。

同时,在覆盖推理、编程、Agent、工具调用与浏览等12项代表性基准上,GLM-5.1展现出全面、均衡的能力结构。这意味着GLM-5.1的提升并非单点突破,而是在通用智能、真实编程与复杂任务执行三个维度上同步增强,更适合作为通用Agent系统与工程生产场景的基础模型。

2.2 长程任务能力:迈向8小时级持续工作

GLM-5.1最重要的突破在于长程任务(Long Horizon Task)能力的显著提升。与传统模型以分钟级交互为主的模式不同,GLM-5.1能够在单次任务中持续、自主地工作长达8小时,完成从规划、执行、测试到修复和交付的完整流程。

这是中国模型中率先达到8小时级持续工作水平的代表。在同等评估标准下,GLM-5.1展现出强大的目标一致性保持能力,能够有效减少策略漂移、错误累积和无效试错。这种能力并不只是依赖更长上下文来实现,而是要求模型在长时间执行中持续保持目标一致性,真正具备面向复杂工程任务的自主执行能力。

模型能力的衡量标准正在从“单轮更聪明”进一步演进为“长程任务中能稳定工作多久、交付什么”,GLM-5.1正是这一演进趋势的标志性产物。

2.3 工程交付能力:从代码生成向全自治智能体进化

GLM-5.1的核心突破之一,是在长程任务中形成“实验—分析—优化”的自主闭环。模型不再停留在一次性代码生成的层面,而是能够主动运行benchmark、识别瓶颈、调整策略,并在多轮迭代中持续提升结果质量。

智谱AI公布了多个典型案例展示GLM-5.1的工程交付能力:

构建完整Linux桌面系统:GLM-5.1可在8小时内从零开始构建完整的Linux桌面系统,展现出从需求分析到系统交付的全流程能力。

向量数据库性能优化:模型自主进行655轮迭代,完成整条优化链路,让向量数据库的查询吞吐提升到初始正式版本的6.9倍。

机器学习内核优化:在KernelBench Level 3优化基准上,GLM-5.1完成千轮工具调用优化真实机器学习模型负载,实现3.6倍几何平均加速比,远超torch.compile max-autotune模式的1.49倍。

这些结果充分说明,GLM-5.1已具备在复杂工程环境中自主探索、持续改进和稳定交付的能力,能够胜任系统构建、性能优化与长程Coding Agent等更高价值任务。

03.

继续演进方向

GLM-5.1的发布标志着国产大模型发展的重要里程碑。在全球大模型竞争日趋激烈的背景下,GLM-5.1不仅在多项基准测试中达到全球领先水平,更在长程任务自主执行这一关键能力上实现突破性进展。

从技术演进角度看,GLM-5.1代表大模型能力从“对话智能”向“行动智能”的转变。传统大模型更多强调单轮对话中的理解与生成能力,而GLM-5.1所展现的8小时级持续工作能力,标志着AI系统正从被动的回答问题转向主动的问题解决。这种能力提升,将为Autonomous Agent、DevOps自动化、复杂系统构建等场景带来根本性改变。

GLM-5.1所展现的“长程任务”能力将成为大模型发展的重要方向。从“更聪明”到“更持久”、从“能回答”到“能交付”,这或许正是AI技术演进的新阶段。GLM-5.1作为这一趋势的引领者,不仅为开发者提供强大的基座能力,更为AI Agent时代的技术发展指明了方向。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OiBFpI0aCYX2StvJU-mHEYbg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券