从 Vibe coding 到 Agentic Engineering——GLM-5 如何开启智能体工程新时代

原创

math chen

发布于 2026-02-26 13:21:16

620

2026年1月29日，鄂维南院士及其团队在模速空间发布 Agentic Science 最新研究成果，系统公布全景蓝图（Roadmap）、相关测评体系与知识库建设进展，为智能体驱动的科学研究奠定了体系化框架。

几乎同步，智谱AI于近日开源 GLM-5 并发布长达40页的技术报告，标题为 From Vibe Coding to Agentic Engineering，正式将 Agentic Engineering 推向行业视野。这两份重磅发布，分别从科学研究与工程实践两条主线，共同标志着 Agentic 范式从概念走向落地，开启智能体驱动科研与工程的全新时代。

今天我们重点聚焦 Agentic Engineering，Agentic Science 相关内容将在下一篇文章中展开。那么，究竟什么是 Agentic Engineering？我们可以用一个直观的例子来理解。

如果说 Vibe coding 是让 AI 帮你写一个贪吃蛇，它就直接输出一个可运行的贪吃蛇 demo；那么 Agentic Engineering 则更进一步：当你告诉系统“这个程序里有一个我找不到的 bug”，AI 不仅能自主定位问题，还会自动修改代码、执行测试、完成单元验证，从排查、修复到验证全流程自主完成，无需人工干预。这正是 Agentic Engineering 与传统代码生成最核心的区别——从“完成单一指令”升级为“自主解决复杂工程问题”。

GLM-5 的发布，也迅速引发了全球科技与投资界的高度关注。硅谷顶级风投机构 A16Z 随后发布的最新数据显示，开源大模型与顶级闭源大模型之间的能力差距正在快速收窄。其中，国产开源模型 GLM-5 被选为开源阵营代表，在核心能力上正向全球闭源天花板 Claude Opus 4.6 持续逼近，标志着中国大模型在 Agent 与工程能力上，正式进入全球第一梯队。

在关键能力指标上，GLM-5 更是实现了里程碑式的突破。在 SWE‑Bench Verified 评测中，模型得分达到 77.8；在 ABrowse Comp 任务上得分 75.9。此外，在 Artificial Analysis Intelligence Index 评测中，GLM-5 更是斩获 50 分，成为全球首个达到这一水平的开源大模型，再次印证了其在自主分析与工程推理上的划时代突破。

值得一提的是，在正式发布前，GLM-5 就曾以匿名代号 Pony Alpha 参与盲测，其表现被众多海外科技大V误认为是 Claude 或 Grok 这类顶级闭源模型，实力早已得到国际业界的隐性认可。

更重要的是，GLM-5 从发布之初就实现原生适配，已完成对华为昇腾、摩尔线程等七大国产芯片平台的深度优化，从模型内核到推理框架全栈打通。这不仅是技术上的突破，更意味着我国在大模型与算力体系上真正实现自主可控，不再被外部技术封锁“卡脖子”。

GLM-5 能够实现如此强大的 Agentic 能力，核心在于其底层算法的重大突破。模型依托 DSA 稀疏注意力机制，并与异步强化学习深度结合，用更高效、更智能的方式解决了长时序、长上下文、高复杂度的智能体任务难题。这不仅是一次关键的算法优化，更是从传统大模型走向自主智能体工程的重要跨越。在此也要特别感谢唐杰教授团队在底层技术架构上的原创性贡献，为 Agentic Engineering 奠定了坚实的算法基础。

那么，为什么说 GLM-5 这次的突破意义重大？核心就在于：Agentic reinforcement learning（智能体强化学习）本身极难训练。

传统大模型做数学推理、代码生成时，一个样本从生成到获得反馈只需要几秒钟：模型输出答案、系统判题、打分反馈，整个流程都在 GPU 集群内部高效完成，训练链路短、延迟低。

但 Agentic 任务完全不同。以自动修 bug 为例：模型需要先通读代码、梳理逻辑、制定修改方案、运行测试、查看结果。一旦失败，还要从头重试。这一过程会产生大量等待、重试、环境交互开销，GPU 大量时间都在空等任务执行完毕、数据返回，才能继续下一轮训练。

这种长周期、高交互、多步骤的特性，让传统暴力堆算力、简单扩展集群的方式完全失效。这也是长期以来，Agentic 训练难以规模化、工程化的核心瓶颈。

那么，GLM-5 是如何突破这一困境的？它采用了一套全新思路：让生成与训练完全独立运行，生成管生成、训练管训练。模型依托 SLIME-SLAM 框架，将整个系统清晰拆分为两大集群：一个是 Rollout 集群，专门负责智能体任务的执行、探索、交互与采样；另一个是训练集群，专注于模型参数的更新与优化。

但这种异步架构，也会遇到和传统 IT 系统中异步设计同样的核心挑战。第一个问题是 Token 对齐：在生成与训练完全分离、异步执行的情况下，如何保证序列、状态、动作之间的 token 能够精准对齐，不出现错位与混乱。第二个问题则是离策略训练的稳定性。同步训练天然更稳定，而异步训练最大的痛点就是难以保证训练稳定，很容易出现分布偏移、梯度冲突、更新不同步等问题，直接影响模型收敛与最终效果。

除此之外，Agentic 任务还面临一个空间维度的巨大挑战：上下文长度极长。传统标准注意力的时间复杂度是 O(L²)，当上下文长度 L 达到 200K 级别时，计算量会呈平方级爆炸，成本与耗时都难以承受。这也是为什么此前业界会青睐 Kimi 这类模型——核心优势就是超长文本支持；同样，Minimax 能脱颖而出，很大程度上也是因为在长上下文场景上表现突出。而 Agentic Engineering 恰恰需要处理海量代码、多轮交互、复杂执行链路，对长上下文的依赖远高于普通大模型。

那么，这些难题该如何解决？智谱团队给出的方案，核心是在重要 Token 选择、确定性与推理速度之间做精准平衡。

事实上，在 GLM 系列的迭代中，即便使用 DSA 稀疏注意力机制，团队依然遇到了新的挑战——强化学习训练过程中的不稳定性。DSA 稀疏注意力最初由 DeepSeek 团队提出，但如何在 RL 强化学习场景下把 DSA 真正用好、用稳，是智谱团队通过大量工程实践、踩过无数坑后才摸索出的可行路径，包括更精细的上下文管理、训练稳定性优化等一系列关键技术。

在此基础上，我们可以进一步来看 GLM-5 完整的训练方案是如何设计与落地的。

第一，分层训练不同能力。模型采用三级强化学习体系：分别是 Reasoning RL（推理强化学习）、Agentic RL（智能体强化学习）、General RL（通用强化学习），三层能力独立训练、逐层叠加，让模型在逻辑、自主决策、通用理解上全面提升。

第二，着重构建多样化训练环境。团队针对三类核心场景搭建了高仿真、可验证的训练环境：软件工程任务环境、终端操作环境、信息搜索环境，这三类场景也恰好对应真实 IT 运维、开发、调试的全流程，让智能体在训练阶段就贴近真实工程需求。

第三，高效优化基座模型。在 GLM 基座之上，通过架构与算法联合优化，让原本不兼容的技术栈能够高效协同工作，最终在各项测评中取得了极具竞争力的结果。

回到最核心的问题：从 Vibe coding 到 Agentic Engineering 这个转变意味着什么？

它意味着 AI 训练的扩展方式彻底变了。不再是单纯靠暴力堆参数、堆算力去“硬解”任务，而是走向一套极度精细的协同体系：异步架构、稀疏注意力、分层强化学习、高保真可验证环境、基座模型联合优化。

可以说，智谱 GLM-5 这次开源，相当于业界再一次迎来了类似去年春节 DeepSeek 那样级别的技术跃迁。智谱，已经成为中国第二个 DeepSeek 级别的硬核技术力量。

Agentic Engineering 的时代，正式到来。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

云开发 cli 工具