Harness 热退潮后，Agent 的下一个主战场，不在论文里

瑭宋元

发布于 2026-06-29 12:15:34

2026 年的 Agent 赛道，正处在一个微妙的节点。Harness Engineering 被捧为 “Agent 落地最后一公里” 的标准答案，Claude Code、GitHub Codex 与国内的 Trae、Workbuddy 轮番刷屏，新增 Star 的开源项目每周都在涌现。79% 的企业在布局 Agent。真正跑通生产环境的，只有 2%。

热闹都在聚光灯下，问题都藏在生产线里。抛开概念炒作回归企业应用本质，很多当下被追捧的方向，从一开始就走偏了。

一、Harness 不是终局，所有工具终将走向趋同

不存在什么 “革命性的 Harness 架构”。

如今市面上所有主流 Agent 开发平台，无论是海外的 Claude Code、Codex，还是国内的 Trae、Workbuddy，核心逻辑本质上都是同一套：大模型作为决策中枢，工具调用、上下文管理、任务拆解与执行由调度层统一管控。产品间的差异只集中在封装程度、交互形态、适配场景 —— 有的偏向代码场景，有的主打低代码业务流程，有的以开源灵活度为核心卖点。

随着工程化的成熟，这些产品的能力边界会持续收敛，最终被打磨成通用型的 Agent 开发与运行底座。就像当年的低代码平台，早期百家争鸣各有卖点，最终主流产品的核心能力高度重合，市场竞争从 “架构创新” 转向了生态、稳定性与企业服务能力。

Harness Engineering 本身没有错。它确实解决了 Agent 从 “零散 Prompt 堆砌” 到 “系统化调度” 的问题。但它不是银弹，更不是 Agent 技术的终点。德勤在 2026 年的企业落地调研中给出了一个很尖锐的测试标准：关闭所有自动重试、自我修正循环，让 Agent 首次执行真实业务任务，如果成功率低于 90%，这套架构本质上就是失败的 —— 你不能靠无限重试来规模化一个系统。

绝大多数基于当前 Harness 架构的 Agent，连这个及格线都碰不到。

二、Skill 的本质困境：提示词堆不出企业级可靠性

这代 Harness 工程的基石，是 Skill 体系。恰恰是 Skill，成了企业落地最大的短板。

Skill 的本质必须被看清：它是封装好的提示词加工具调用约定，指令最终被喂给大模型，复杂任务靠 COT（思维链）逐步完成。它的能力上限完全绑定大模型的推理稳定性，任务链路每拉长一段，错误概率就会呈指数级增长。

长链路任务的幻觉扩散，是当前技术路线下的结构性问题。一个多步骤任务，第一步 95% 正确率，第二步 90%，五步之后整体成功率就已经跌到 60% 以下。更致命的是，错误一旦进入上下文，就会像病毒一样蔓延 —— 也就是行业内所说的 “上下文中毒”，后续所有推理都会基于错误前提展开，越修正偏离正确结果越远。

“让 Agent 自我检测、循环纠错” 的方案被不少人提出。听起来很美好，实际上是用 Token 换安慰。循环检测不仅会让成本成倍飙升，还会陷入 “用幻觉验证幻觉” 的死循环：大模型既当运动员又当裁判员，它连自己第一步错了都识别不出来，又怎么能靠多循环几次就突然正确？

企业级应用的核心诉求从来不是 “看起来聪明”。稳定、可靠、安全可控才是核心标尺。一个正确率 80% 但飘忽不定的 Agent，在企业里的价值为负 —— 你永远不知道它什么时候会出问题，出了问题还要花更多人力去排查修复。Gartner 调研显示，89% 的企业将安全合规与可靠性列为 Agent 落地的首要顾虑，这一顾虑的优先级远超过对模型能力本身的关注。

三、企业落地的终局：Agent 负责探路，Workflow 负责生产力

很多人对 Agent 的想象是 “全自动化、自主完成所有工作”。这在企业场景里既不现实，也无必要。

企业应用的真实终局，一定是 “Agent 探索 + Workflow 固化” 的二元结构：面对不确定的、新的、复杂的业务场景，由人 + Agent 协同探索，试错、优化、跑通完整路径；一旦路径验证成熟、流程标准化，立刻用确定性的 Workflow 进行固化，转化为可复用、可审计、高可靠的自动化流程。

这个思路已经被火山引擎的千万级 Agent 架构实践验证。他们把系统彻底解耦，确定性的规则、校验、权限控制全部放在传统 Workflow 里执行，Agent 只负责动态策略决策，绝不浪费大模型去做简单的条件判断。这背后的逻辑非常朴素：能用硬规则保证 100% 正确的事，就别交给概率性的大模型。

为什么说固化的 Workflow 才是企业真正的生产力？因为企业追求的是可预期、可规模化、可管控的产出，而不是 “偶尔能惊艳你，偶尔会坑死你” 的惊喜。Agent 的价值，是把过去需要人花几天摸索的流程，用几小时跑通原型，大幅降低探索成本；而真正支撑业务日复一日稳定运行的，永远是固化下来的确定性流程。

这也解释了纯 Skill 路线走不通企业级场景的原因。Skill 本质上还是 “柔性” 的，执行结果每次都存在波动；而 Workflow 是 “刚性” 的，相同的输出永远由相同的输入触发。企业需要的，是用柔性的 Agent 去拓展边界，用刚性的 Workflow 去守住基本盘。