首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Harness 热退潮后,Agent 的下一个主战场,不在论文里

Harness 热退潮后,Agent 的下一个主战场,不在论文里

作者头像
瑭宋元
发布2026-06-29 12:15:34
发布2026-06-29 12:15:34
30
举报

2026 年的 Agent 赛道,正处在一个微妙的节点。Harness Engineering 被捧为 “Agent 落地最后一公里” 的标准答案,Claude Code、GitHub Codex 与国内的 Trae、Workbuddy 轮番刷屏,新增 Star 的开源项目每周都在涌现。79% 的企业在布局 Agent。真正跑通生产环境的,只有 2%。

热闹都在聚光灯下,问题都藏在生产线里。抛开概念炒作回归企业应用本质,很多当下被追捧的方向,从一开始就走偏了。

一、Harness 不是终局,所有工具终将走向趋同

不存在什么 “革命性的 Harness 架构”。

如今市面上所有主流 Agent 开发平台,无论是海外的 Claude Code、Codex,还是国内的 Trae、Workbuddy,核心逻辑本质上都是同一套:大模型作为决策中枢,工具调用、上下文管理、任务拆解与执行由调度层统一管控。产品间的差异只集中在封装程度、交互形态、适配场景 —— 有的偏向代码场景,有的主打低代码业务流程,有的以开源灵活度为核心卖点。

随着工程化的成熟,这些产品的能力边界会持续收敛,最终被打磨成通用型的 Agent 开发与运行底座。就像当年的低代码平台,早期百家争鸣各有卖点,最终主流产品的核心能力高度重合,市场竞争从 “架构创新” 转向了生态、稳定性与企业服务能力。

Harness Engineering 本身没有错。它确实解决了 Agent 从 “零散 Prompt 堆砌” 到 “系统化调度” 的问题。但它不是银弹,更不是 Agent 技术的终点。德勤在 2026 年的企业落地调研中给出了一个很尖锐的测试标准:关闭所有自动重试、自我修正循环,让 Agent 首次执行真实业务任务,如果成功率低于 90%,这套架构本质上就是失败的 —— 你不能靠无限重试来规模化一个系统。

绝大多数基于当前 Harness 架构的 Agent,连这个及格线都碰不到。

二、Skill 的本质困境:提示词堆不出企业级可靠性

这代 Harness 工程的基石,是 Skill 体系。恰恰是 Skill,成了企业落地最大的短板。

Skill 的本质必须被看清:它是封装好的提示词加工具调用约定,指令最终被喂给大模型,复杂任务靠 COT(思维链)逐步完成。它的能力上限完全绑定大模型的推理稳定性,任务链路每拉长一段,错误概率就会呈指数级增长。

长链路任务的幻觉扩散,是当前技术路线下的结构性问题。一个多步骤任务,第一步 95% 正确率,第二步 90%,五步之后整体成功率就已经跌到 60% 以下。更致命的是,错误一旦进入上下文,就会像病毒一样蔓延 —— 也就是行业内所说的 “上下文中毒”,后续所有推理都会基于错误前提展开,越修正偏离正确结果越远。

“让 Agent 自我检测、循环纠错” 的方案被不少人提出。听起来很美好,实际上是用 Token 换安慰。循环检测不仅会让成本成倍飙升,还会陷入 “用幻觉验证幻觉” 的死循环:大模型既当运动员又当裁判员,它连自己第一步错了都识别不出来,又怎么能靠多循环几次就突然正确?

企业级应用的核心诉求从来不是 “看起来聪明”。稳定、可靠、安全可控才是核心标尺。一个正确率 80% 但飘忽不定的 Agent,在企业里的价值为负 —— 你永远不知道它什么时候会出问题,出了问题还要花更多人力去排查修复。Gartner 调研显示,89% 的企业将安全合规与可靠性列为 Agent 落地的首要顾虑,这一顾虑的优先级远超过对模型能力本身的关注。

三、企业落地的终局:Agent 负责探路,Workflow 负责生产力

很多人对 Agent 的想象是 “全自动化、自主完成所有工作”。这在企业场景里既不现实,也无必要。

企业应用的真实终局,一定是 “Agent 探索 + Workflow 固化” 的二元结构:面对不确定的、新的、复杂的业务场景,由人 + Agent 协同探索,试错、优化、跑通完整路径;一旦路径验证成熟、流程标准化,立刻用确定性的 Workflow 进行固化,转化为可复用、可审计、高可靠的自动化流程。

这个思路已经被火山引擎的千万级 Agent 架构实践验证。他们把系统彻底解耦,确定性的规则、校验、权限控制全部放在传统 Workflow 里执行,Agent 只负责动态策略决策,绝不浪费大模型去做简单的条件判断。这背后的逻辑非常朴素:能用硬规则保证 100% 正确的事,就别交给概率性的大模型。

为什么说固化的 Workflow 才是企业真正的生产力?因为企业追求的是可预期、可规模化、可管控的产出,而不是 “偶尔能惊艳你,偶尔会坑死你” 的惊喜。Agent 的价值,是把过去需要人花几天摸索的流程,用几小时跑通原型,大幅降低探索成本;而真正支撑业务日复一日稳定运行的,永远是固化下来的确定性流程。

这也解释了纯 Skill 路线走不通企业级场景的原因。Skill 本质上还是 “柔性” 的,执行结果每次都存在波动;而 Workflow 是 “刚性” 的,相同的输出永远由相同的输入触发。企业需要的,是用柔性的 Agent 去拓展边界,用刚性的 Workflow 去守住基本盘。

四、泡沫之下,真正的竞争力是埋头工程化

现在的 Agent 行业,有一种很不好的风气。论文发得满天飞,开源项目层出不穷,人人都在讲 “自迭代”“自进化”“多智能体协同”。但你真让他拿 Agent 做一个完整的政府公文自动流转,从签收、拟办、批办到归档全链路跑通,大概率直接卡壳。

Demo 和生产,完全是两个世界。

Demo 只需要覆盖最理想的主路径,而生产环境要面对的是:接口异常、数据脏污、权限边界、异常分支、合规审计、故障回滚、成本管控…… 这些问题,没有一个能靠论文里的新算法解决,全靠一点一滴的工程化打磨。

周鸿祎近期的判断很直白:开放式智能体天生不可控,越通用越危险,企业落地必须走隔离管控、权限收敛的路线。这恰恰是当前很多技术爱好者不愿意听的 —— 大家都喜欢看 “Agent 自主进化” 的科幻叙事,却不愿意做 “给 Agent 划边界、做审计、控权限” 的脏活累活。

行业的发展规律从来都是这样:狂热期拼概念,退潮期拼工程。当 Harness 的概念红利被消耗殆尽,当 “靠提示词堆不出企业级可靠性” 成为行业共识,下一个真正受关注的技术方向,一定是围绕企业落地的工程化体系:

可观测、可回溯的 Agent 全链路审计技术

确定性校验与幻觉拦截的工程化方案

Agent 与传统工作流的无缝融合框架

企业级权限管控与数据安全沙箱

低成本、可规模化的效果评测体系

这些技术不酷炫,不博眼球,没法一句话讲成科幻故事。但它们是真正能让 Agent 从 PPT 走进生产线的东西。

写在最后

Agent 行业从不缺新概念。缺的是真正沉下去落地的耐心。

从 Prompt 工程到 RAG,再到 Harness Engineering,每一次概念爆发,都有人喊 “这次不一样了”。但最终能留下来的,永远是那些解决了真实问题的工程实践。Harness 不是终点,只是 Agent 工程化路上的一站。

当喧嚣散去,真正有价值的技术,从来不是论文里引用量最高的那个,而是在企业机房里稳定运行、默默创造价值的那个。毕竟,企业不会为概念买单,只会为结果买单。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Agent 政企应用研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、Harness 不是终局,所有工具终将走向趋同
  • 二、Skill 的本质困境:提示词堆不出企业级可靠性
  • 三、企业落地的终局:Agent 负责探路,Workflow 负责生产力
  • 四、泡沫之下,真正的竞争力是埋头工程化
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档