首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Harness 的核心骨架

Harness 的核心骨架

原创
作者头像
lpp31
发布2026-06-11 17:34:12
发布2026-06-11 17:34:12
20
举报
文章被收录于专栏:前端小羊前端小羊

我们可以把 Agent Harness 想象成一个 "微型的操作系统内核",它主要干三件事:调度、约束、兜底。

一、Harness 的核心骨架(抽象模型)

不管你是做 AI Coding、AI Ops 还是 AI 客服,一个成熟 Harness 通常长这样:

┌───────────────┐

│ Planner │ ← 决定"先干嘛、后干嘛"(Task Decomposition)

└───────┬───────┘

┌───────────────┐

│ Scheduler │ ← 决定"现在该谁干活"(Step / Turn Management)

└───────┬───────┘

┌───────────────┐

│ Executor │ ← 真正调 LLM / Tool / Sandbox

└───────┬───────┘

┌───────────────┐

│ Evaluator │ ← 判断"干完没、干对没"(Test / Lint / Diff Review)

└───────┬───────┘

┌───────────────┐

│ Memory │ ← 短期 Context + 长期 Knowledge

└───────────────┘

Spec 阶段只定义了"目标是什么";

Harness 阶段负责把上面这一整条链路跑起来,并在每一步加护栏。

二、为什么很多团队卡在 Spec,迈不过 Harness?

因为 Harness 是工程问题,不是 Prompt 问题:

难点 说明

上下文爆炸 几万行代码一塞就爆 token,需要裁剪 / RAG

失败恢复 Agent 改错代码怎么办?要 Checkpoint + 回滚

工具一致性 同一个工具在不同模型眼里"理解不一样"

幻觉治理 模型说"我跑过了"但实际没跑,需要真实执行验证

成本控制 无限循环反思 = 无限烧钱

所以你会看到:

模型能力决定上限,Harness 能力决定下限。

三、你现在可以怎么用这个概念?

如果你是在看技术选型 / 写方案 / 评估平台,可以用这三个问题快速判断对方是不是真的到了 Harness 阶段:

  1. 有没有 Agent Loop?undefined还是"一次 Prompt 一把梭"?
  2. 有没有执行验证?undefined改完代码后是不是真跑了 lint / test / build?
  3. 有没有 Human-in-the-loop?undefined危险操作是直接干,还是需要人点确认?

只要这三个不全有,基本都还停留在 Vibe / Spec 阶段。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档