代码能力碾压全场！GLM-4.7登顶LiveCodeBench，73.8%通过率刷新开源天花板

用户11993241

发布于 2026-01-15 15:00:36

4.8K0

📝 一、引言：从“对话”到“执行”的跃迁

1.1 大模型进入“工程化 Agent”阶段

2025年，大语言模型（LLM）的竞争焦点已从单纯的对话质量，转向了复杂任务执行与工程化落地能力。市场更关注模型能否真正“把活干完”，尤其是在软件工程、数据分析、自动化办公等场景中，模型需要能够理解需求、拆解任务、调用工具并修正错误，直至任务完成。

1.2 GLM-4.7 的定位

GLM-4.7 正是智谱AI在这一背景下推出的新一代旗舰模型，于2025年12月23日发布并开源。它并非简单的参数升级，而是一次面向“Agentic Coding”和“复杂推理”的系统性跃迁，旨在将模型从“答得对”推向“做得完”。

核心目标：强化编码、长程任务规划与工具协同能力。
技术基石：引入“交织式思考”、“保留式思考”等可控推理机制。
能力拓展：提升前端审美与UI生成能力，支持多模态任务规划。

1.3 文章结构概览

本文将围绕GLM-4.7展开，深入探讨其技术架构、能力评测、推理机制、Agent应用、部署实践及产业影响，旨在为读者提供一个全面、深入的理解框架。

📊 二、GLM-4.7 概览：定位、发布与生态

2.1 基本信息

发布方：智谱AI（Zhipu AI），源于清华大学技术成果转化。
发布时间：2025年12月23日。
模型类型：通用大语言模型，重点强化编程与推理能力。
模型架构：基于Transformer的混合专家（MoE）架构，总参数约400B，激活参数约20B–30B。
上下文窗口：支持约200K输入tokens和128K输出tokens。

2.2 发布与开源

GLM-4.7在发布当日即通过BigModel.cn开放API，并上线z.ai全栈开发模式的Skills模块。其开源策略迅速获得了全球开发者的积极响应，在Hugging Face全球趋势榜上登顶，并被Vercel、Kilo Code、Cline等多个海内外平台宣布接入。

2.3 智谱AI与GLM家族

智谱AI自2019年成立以来，始终专注于通用人工智能（AGI）研究。GLM-4.7是其GLM-4系列的重要升级，标志着该系列从通用对话模型向“工程化Agent基石模型”的演进。2026年1月8日，智谱AI在香港联交所主板上市（股票代码：2513），GLM-4.7被视为其技术实力的关键体现。

2.4 生态与产业支持

GLM-4.7的快速发展得益于完善的生态系统和产业支持。其架构已适配40余款国产芯片，并与北京市公共算力平台等合作，为模型训练提供了坚实基础。

🏗️ 三、技术架构：为Agent而生的MoE设计

3.1 整体架构：GLM家族的延续与演进

GLM-4.7延续了GLM系列的自回归Transformer架构，并针对编程和推理任务进行了深度优化。其核心是混合专家（MoE）架构，通过门控网络将输入分配给不同的“专家”子网络，在保持强大能力的同时有效控制了推理成本。

3.2 上下文与输出能力：支持长链路Agent

GLM-4.7支持约200K的输入上下文和128K的输出长度，这一特性对于处理长文档、分析大型代码库和执行多步骤的复杂任务至关重要，为Agent的“长链路执行”提供了可能。

3.3 模态策略：文本核心，多模态协同

GLM-4.7定位为文本大模型，其强大的视觉理解能力主要由GLM-4V系列模型承担。在z.ai平台，GLM-4.7作为“决策大脑”，负责理解用户意图、规划任务流程，并协同调度GLM-4V（视觉）、ASR（语音识别）、TTS（语音合成）等多模态能力，实现统一的多模态任务规划与协作。

3.4 训练范式：从“预训练+微调”到“强化学习工程化”

GLM-4.7的训练不仅依赖于大规模的预训练和指令微调，更引入了基于可验证奖励的强化学习（RLVR）框架Slime。该框架将任务执行、结果验证、奖励计算和策略更新整合成一条自动化的工程流水线，持续打磨模型在复杂任务中的表现。

📈 四、能力评测：代码、推理与工具的全面领先

4.1 编码能力：开源模型的佼佼者

GLM-4.7在多个权威编码基准测试中表现卓越，被誉为“国产开源编程天花板”。

SWE-bench-Verified：得分73.8%，位列开源第一，超越GPT-5.1 High和Claude Sonnet 4.5。
LiveCodeBench V6：得分84.9分，刷新开源SOTA纪录，超越Claude Sonnet 4.5。
Code Arena：在百万用户盲测中位列开源第一、国产第一，综合表现超越GPT-5.2。

4.2 推理与数学能力：逼近顶尖闭源模型

GLM-4.7在数学和复杂推理方面同样表现出色，在多项高难度测试中达到或接近顶尖水平。

HLE (Humanity’s Last Exam)：得分42.8%，较上一代提升41%，超越GPT-5.1 High。
GPQA-Diamond：得分85.7%，与Gemini 3 Pro等顶级闭源模型相当。
数学竞赛：在AIME 2025、HMMT等竞赛基准上取得高分，展现了强大的形式推理能力。

4.3 工具调用与Agent能力：交互式任务新标杆

GLM-4.7在工具调用和多步交互任务中表现突出，是构建高效Agent的关键。

τ²-Bench：交互式工具调用评测得分87.4分，刷新开源SOTA纪录。
BrowseComp：网页浏览与信息检索任务得分显著提升，在复杂网页操作场景中表现优异。

4.4 综合智能榜单：开源与国产双料第一

在Artificial Analysis Intelligence Index榜单中，GLM-4.7以68分的综合成绩位列全球第六，同时在开源模型和国产模型分类中均排名第一，超越了Claude 4.5 Sonnet、Grok 4等国际知名模型。

4.5 前端审美与UI生成：从“能用”到“好用”

GLM-4.7在前端代码生成和UI设计方面取得了显著进步，能够生成观感更佳的网页和PPT。

PPT 16:9适配率：从52%跃升至91%。
网页布局：结构更干净，组件层级更清晰，审美显著提升。

🧠 五、推理机制：交织、保留与轮级的思考模式

5.1 从“黑箱生成”到“可控推理”

GLM-4.7将“思考过程”作为模型输出的一部分进行显式建模，通过“先思考，再行动”的模式，显著提升了复杂任务的稳定性和可控性。

5.2 交织式思考 (Interleaved Thinking)

在每次生成回答或调用工具前，模型都会先生成一段推理轨迹（Thought Trace），用于规划、验证和反思。这一机制有效减少了“幻觉调用”和参数错误。

5.3 保留式思考 (Preserved Thinking)

在多轮对话的复杂任务中，模型会自动保留之前的思考模块，避免重复推理，确保长程任务的一致性和效率。

5.4 轮级思考 (Turn-level Thinking)

用户可以根据任务的复杂度，按“轮”控制模型的推理开销。简单任务可关闭思考模式以降低延迟和成本，复杂任务则开启思考模式以确保质量。

5.5 思考模式对比

思考模式	核心机制	主要优势	适用场景
交织式思考	在每次行动前生成推理轨迹	减少错误调用，提升规划质量	所有需要推理的任务
保留式思考	跨多轮对话保留思考结果	避免重复推理，保障长程一致性	长周期复杂工程任务
轮级思考	按对话轮次控制推理开关	灵活平衡性能与成本	混合复杂度的工作流

5.6 对Agent工作流的影响

这些思考模式使GLM-4.7能够胜任复杂的Agent工作流，如多步工具调用、长程规划和自我修正，真正从“聊天机器人”进化为“任务执行者”。

🤖 六、Agent应用：从编码到多模态协同

6.1 Agentic Coding：从0到1与从1到100

GLM-4.7在“Agentic Coding”场景中表现卓越，能够胜任从零构建项目和在现有工程中迭代优化的全流程任务。

0到1：项目初始化 能够根据自然语言需求，端到端生成完整可运行的前后端项目，包括代码、配置和文档。
1到100：工程迭代 能够理解现有代码库，完成Bug修复、功能扩展、代码重构和性能优化等任务。

6.2 多模态Agent：统一规划与协同

在z.ai平台，GLM-4.7作为“总指挥”，能够理解包含文本、图像、语音的多模态指令，并协同调度视觉、语音等多种能力，完成跨模态的复杂任务。

6.3 移动端Agent：AutoGLM 2.0

智谱的AutoGLM 2.0应用了GLM-4.7的Agent能力，通过“API+GUI”混合模式，能在移动设备上执行长达40步的复杂操作，如自动查询攻略、比价下单等，已覆盖约8000万台终端。

6.4 行业应用案例

GLM-4.7正被广泛应用于电商、金融、工业等多个行业，用于构建智能客服、自动化测试、代码审计等Agent应用，有效提升了业务效率和质量。

⚙️ 七、部署与实践：从云端API到本地部署

7.1 云端API调用

开发者可通过智谱AI的BigModel.cn平台或z.ai全栈开发模式调用GLM-4.7。其API接口兼容OpenAI格式，并支持通过extra_body参数精细控制思考模式等高级功能。

7.2 本地与私有化部署

GLM-4.7支持通过vLLM、SGLang等主流推理框架进行本地或私有化部署，便于企业在自有环境中使用。

vLLM部署示例： bash vllm serve zai-org/GLM-4.7-FP8 –tensor-parallel-size 8 –tool-call-parser glm47 –reasoning-parser glm45 –enable-auto-tool-choice –served-model-name glm-4.7-fp8
SGLang部署示例： bash python3 -m sglang.launch_server –model-path zai-org/GLM-4.7-FP8 –tp-size 8 –tool-call-parser glm47 –reasoning-parser glm45 –speculative-algorithm EAGLE –speculative-num-steps 3 –speculative-eagle-topk 1 –speculative-num-draft-tokens 4 –mem-fraction-static 0.8 –served-model-name glm-4.7-fp8 –host 0.0.0.0 –port 8000
开启保留式思考模式 (SGLang)： json { “chat_template_kwargs”: { “enable_thinking”: true, “clear_thinking”: false } }

7.3 提示词工程建议

为充分发挥GLM-4.7的能力，建议根据具体任务调整参数：

复杂Agent任务：
- temperature: 0.7
- top-p: 1.0
- max_new_tokens: 16384
- 开启保留式思考模式
一般对话/写作：
- temperature: 1.0
- top-p: 0.95
- max_new_tokens: 131072

🌐 八、产业影响：国产大模型的崛起

8.1 技术实力：跻身全球第一梯队

GLM-4.7在多个国际权威评测中取得开源与国产双料第一的成绩，标志着中国大模型技术已跻身全球第一梯队，具备了与国际顶尖模型同台竞技的实力。

8.2 产业生态：推动AI工程化落地

GLM-4.7的开源和广泛应用，正在推动AI从“实验室Demo”走向“生产级应用”。其高性价比的API服务和强大的Agent能力，为中小企业提供了低成本、高效率的智能化转型方案。

8.3 国产化与自主可控

GLM-4.7已适配40余款国产芯片，并在国产算力平台上完成训练，为我国在AI领域实现技术自主可控奠定了坚实基础。

🚀 九、未来展望：通往AGI之路

9.1 技术演进方向

更强的通用推理能力：在数学、逻辑等领域实现更深层次的突破。
更高效的推理机制：在保证质量的同时，降低长链路思考的成本。
更深度的多模态融合：实现文本、图像、语音、视频等信息的无缝理解与生成。
更智能的Agent生态：构建更自主、更可靠的Agent协作框架。

9.2 应用深化与普及

GLM-4.7将推动AI Agent在更多行业和应用场景中的普及，从软件开发、办公自动化，到智能制造、智慧城市，深刻改变人机协作的方式。

9.3 挑战与思考

算力与成本：如何进一步降低模型训练和推理的成本。
安全与伦理：如何确保模型的行为符合安全规范和法律法规。
人才与教育：如何培养更多具备AI素养的复合型人才。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2026-01-13，如有侵权请联系 cloudcommunity@tencent.com 删除

模型

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度