GLM-5.1全面进化，紧逼Opus 4.6

文章来源：企鹅号 - wisemodel开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区，始终坚持“中立、开放、共建、共创、合作”五项基本原则，欢迎加入共同成长。

2025年4月8日，智谱AI正式发布新一代旗舰大模型GLM-5.1。作为GLM-5的增量升级版本，GLM-5.1是智谱迄今为止智能度排名最高的模型，也是全球领先的开源大模型之一。该模型在代码能力、长程任务执行和工程交付三个维度实现了显著突破，标志着国产大模型从“单轮对话智能”向“长程自主执行”的关键跃迁。

GLM-5.1的核心定位是旗舰基座模型，支持文本输入输出，上下文窗口达到200K Tokens，最大输出能力为128K Tokens。在综合能力与Coding能力上，GLM-5.1整体表现对齐Claude Opus 4.6，并在长程自主执行、复杂工程优化与真实开发场景中展现出更强的持续工作能力，成为构建Autonomous Agent与长程Coding Agent的理想基座。GLM-5.1已经在始智AI wisemodel开源社区发布，欢迎前往了解详情。

模型地址

https://wisemodel.cn/models/ZhipuAI/GLM-5.1

01.

模型架构与参数

GLM-5.1延续了GLM-5的MoE（混合专家）架构设计，总参数量达到7440亿，每次推理时激活约400-440亿参数。这种架构设计在保持强大模型能力的同时，通过动态激活专家网络有效控制了推理成本，使模型能够在有限算力下实现高效部署。

作为增量升级版本，GLM-5.1在基础架构上与GLM-5保持一致，重点通过增强的后训练流程实现了能力跃升。智谱AI的研发团队针对编程与推理能力进行了专项优化，使得模型在真实开发场景中的表现得到了质的提升。

02.

核心能力提升

2.1 综合与Coding能力：对齐全球顶尖水平

GLM-5.1在综合能力与Coding能力上达到全球第一梯队水平。在SWE-Bench Pro基准测试中，GLM-5.1取得58.4的成绩，超越GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro，刷新全球最佳表现。SWE-Bench Pro是衡量模型解决真实软件工程问题能力的重要基准，这一成绩充分证明了GLM-5.1在复杂编程任务中的卓越能力。

同时，在覆盖推理、编程、Agent、工具调用与浏览等12项代表性基准上，GLM-5.1展现出全面、均衡的能力结构。这意味着GLM-5.1的提升并非单点突破，而是在通用智能、真实编程与复杂任务执行三个维度上同步增强，更适合作为通用Agent系统与工程生产场景的基础模型。

2.2 长程任务能力：迈向8小时级持续工作

GLM-5.1最重要的突破在于长程任务（Long Horizon Task）能力的显著提升。与传统模型以分钟级交互为主的模式不同，GLM-5.1能够在单次任务中持续、自主地工作长达8小时，完成从规划、执行、测试到修复和交付的完整流程。

这是中国模型中率先达到8小时级持续工作水平的代表。在同等评估标准下，GLM-5.1展现出强大的目标一致性保持能力，能够有效减少策略漂移、错误累积和无效试错。这种能力并不只是依赖更长上下文来实现，而是要求模型在长时间执行中持续保持目标一致性，真正具备面向复杂工程任务的自主执行能力。

模型能力的衡量标准正在从“单轮更聪明”进一步演进为“长程任务中能稳定工作多久、交付什么”，GLM-5.1正是这一演进趋势的标志性产物。

2.3 工程交付能力：从代码生成向全自治智能体进化

GLM-5.1的核心突破之一，是在长程任务中形成“实验—分析—优化”的自主闭环。模型不再停留在一次性代码生成的层面，而是能够主动运行benchmark、识别瓶颈、调整策略，并在多轮迭代中持续提升结果质量。

智谱AI公布了多个典型案例展示GLM-5.1的工程交付能力：

构建完整Linux桌面系统：GLM-5.1可在8小时内从零开始构建完整的Linux桌面系统，展现出从需求分析到系统交付的全流程能力。

向量数据库性能优化：模型自主进行655轮迭代，完成整条优化链路，让向量数据库的查询吞吐提升到初始正式版本的6.9倍。

机器学习内核优化：在KernelBench Level 3优化基准上，GLM-5.1完成千轮工具调用优化真实机器学习模型负载，实现3.6倍几何平均加速比，远超torch.compile max-autotune模式的1.49倍。

这些结果充分说明，GLM-5.1已具备在复杂工程环境中自主探索、持续改进和稳定交付的能力，能够胜任系统构建、性能优化与长程Coding Agent等更高价值任务。

03.

继续演进方向

GLM-5.1的发布标志着国产大模型发展的重要里程碑。在全球大模型竞争日趋激烈的背景下，GLM-5.1不仅在多项基准测试中达到全球领先水平，更在长程任务自主执行这一关键能力上实现突破性进展。

从技术演进角度看，GLM-5.1代表大模型能力从“对话智能”向“行动智能”的转变。传统大模型更多强调单轮对话中的理解与生成能力，而GLM-5.1所展现的8小时级持续工作能力，标志着AI系统正从被动的回答问题转向主动的问题解决。这种能力提升，将为Autonomous Agent、DevOps自动化、复杂系统构建等场景带来根本性改变。

GLM-5.1所展现的“长程任务”能力将成为大模型发展的重要方向。从“更聪明”到“更持久”、从“能回答”到“能交付”，这或许正是AI技术演进的新阶段。GLM-5.1作为这一趋势的引领者，不仅为开发者提供强大的基座能力，更为AI Agent时代的技术发展指明了方向。

发表于: 2026-04-122026-04-12 18:19:28
原文链接：https://page.om.qq.com/page/OiBFpI0aCYX2StvJU-mHEYbg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

GLM-5.1全面进化，紧逼Opus 4.6

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐