我们可以把 Agent Harness 想象成一个 "微型的操作系统内核",它主要干三件事:调度、约束、兜底。
一、Harness 的核心骨架(抽象模型)
不管你是做 AI Coding、AI Ops 还是 AI 客服,一个成熟 Harness 通常长这样:
┌───────────────┐
│ Planner │ ← 决定"先干嘛、后干嘛"(Task Decomposition)
└───────┬───────┘
┌───────────────┐
│ Scheduler │ ← 决定"现在该谁干活"(Step / Turn Management)
└───────┬───────┘
┌───────────────┐
│ Executor │ ← 真正调 LLM / Tool / Sandbox
└───────┬───────┘
┌───────────────┐
│ Evaluator │ ← 判断"干完没、干对没"(Test / Lint / Diff Review)
└───────┬───────┘
┌───────────────┐
│ Memory │ ← 短期 Context + 长期 Knowledge
└───────────────┘
Spec 阶段只定义了"目标是什么";
Harness 阶段负责把上面这一整条链路跑起来,并在每一步加护栏。
二、为什么很多团队卡在 Spec,迈不过 Harness?
因为 Harness 是工程问题,不是 Prompt 问题:
难点 说明
上下文爆炸 几万行代码一塞就爆 token,需要裁剪 / RAG
失败恢复 Agent 改错代码怎么办?要 Checkpoint + 回滚
工具一致性 同一个工具在不同模型眼里"理解不一样"
幻觉治理 模型说"我跑过了"但实际没跑,需要真实执行验证
成本控制 无限循环反思 = 无限烧钱
所以你会看到:
模型能力决定上限,Harness 能力决定下限。
三、你现在可以怎么用这个概念?
如果你是在看技术选型 / 写方案 / 评估平台,可以用这三个问题快速判断对方是不是真的到了 Harness 阶段:
只要这三个不全有,基本都还停留在 Vibe / Spec 阶段。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。