Harness 的核心骨架

原创

lpp31

发布于 2026-06-11 17:34:12

文章被收录于专栏：前端小羊前端小羊

我们可以把 Agent Harness 想象成一个 "微型的操作系统内核"，它主要干三件事：调度、约束、兜底。

一、Harness 的核心骨架（抽象模型）

不管你是做 AI Coding、AI Ops 还是 AI 客服，一个成熟 Harness 通常长这样：

┌───────────────┐

│ Planner │ ← 决定"先干嘛、后干嘛"（Task Decomposition）

└───────┬───────┘

┌───────────────┐

│ Scheduler │ ← 决定"现在该谁干活"（Step / Turn Management）

└───────┬───────┘

┌───────────────┐

│ Executor │ ← 真正调 LLM / Tool / Sandbox

└───────┬───────┘

┌───────────────┐

│ Evaluator │ ← 判断"干完没、干对没"（Test / Lint / Diff Review）

└───────┬───────┘

┌───────────────┐

│ Memory │ ← 短期 Context + 长期 Knowledge

└───────────────┘

Spec 阶段只定义了"目标是什么"；

Harness 阶段负责把上面这一整条链路跑起来，并在每一步加护栏。

二、为什么很多团队卡在 Spec，迈不过 Harness？

因为 Harness 是工程问题，不是 Prompt 问题：

难点说明

上下文爆炸几万行代码一塞就爆 token，需要裁剪 / RAG

失败恢复 Agent 改错代码怎么办？要 Checkpoint + 回滚

工具一致性同一个工具在不同模型眼里"理解不一样"

幻觉治理模型说"我跑过了"但实际没跑，需要真实执行验证

成本控制无限循环反思 = 无限烧钱

所以你会看到：

模型能力决定上限，Harness 能力决定下限。

三、你现在可以怎么用这个概念？

如果你是在看技术选型 / 写方案 / 评估平台，可以用这三个问题快速判断对方是不是真的到了 Harness 阶段：

有没有 Agent Loop？undefined还是"一次 Prompt 一把梭"？
有没有执行验证？undefined改完代码后是不是真跑了 lint / test / build？
有没有 Human-in-the-loop？undefined危险操作是直接干，还是需要人点确认？

只要这三个不全有，基本都还停留在 Vibe / Spec 阶段。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

1+X 认证

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

1+X 认证

登录后参与评论

0 条评论

热度

Harness 的核心骨架

Harness 的核心骨架

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐