从Harness到Loop：别急着跳，你的底子打牢了吗？

bluesky8318

发布于 2026-06-25 14:21:21

510

从Prompt到Loop的四层演进，每层只讲两件事：解决了什么，还缺什么。到最后你自己就会明白——为什么不是所有人都该直接跳到Loop。

停！

别急着上Loop！

我知道你在想什么——Karpathy说了"停止写代码"，Peter Steinberger说了"别再给Agent写提示词了，去设计循环"，Claude Code创建者Boris Cherny说了"我不再给Claude写提示词了，我写循环"，全网都在喊"Loop是未来，赶紧上"。

你慌了。而且你慌得有道理——Loop是四层演进的最高层，大佬们都在用：Karpathy一晚能跑约100个实验，Boris的团队代码100%由AI产出，峰值时每天提交十到三十个PR。这些信号都在告诉你一件事：上Loop就是进阶，不上就是落后。

对吧？你是不是就是这么想的？

但我要说一句可能让你不舒服的话：你的Harness底子打牢了吗？

这不是在吓你。这是我在企业里推AI研发提效时，看到最多的一个坑。

今天这篇，我把从Prompt到Loop的四层演进给你捋清楚。每层只讲两件事：解决了什么，还缺什么。到最后你自己就会明白——为什么不是所有人都该直接跳到Loop。

LAYER 01

Prompt Engineering

——你跟AI说清楚了吗？

2023年，所有人都在卷提示词工程。"你是一个资深的Java架构师""请用专业但易懂的语言""分步骤思考"——你花半小时调提示词，就为了让模型输出像样一点。

✓ 解决了什么

怎么跟模型说清楚你要什么。

提示词工程确实有用，但它有个致命的短板——模型只记得你这一次说了什么。下一轮对话，你精心调好的提示词全没了。你得重新说一遍。同一个项目，换个人来用，又得从头调。

✗ 还缺什么

说白了，Prompt工程就是"每次都手把手教"。模型没有记忆，没有上下文，没有纪律。你累不累？

LAYER 02

Context Engineering

——给模型看够了吗？

2024年，行业意识到光靠提示词不够。你跟一个人说话，不光要告诉他做什么，还得给他看资料、看背景、看上下文。于是Context Engineering来了——RAG检索、知识库注入、项目文档加载、对话历史管理，把模型需要的信息在推理之前喂够。

✓ 解决了什么

模型不再是"空手上考场"，它有资料了。

但新的问题冒出来了——Agent跑偏了，你拉不回来。

模型有了上下文，确实能干活了。但它可能搜错API、调错工具、执行到一半走岔路。你给它看了项目文档，它理解了需求，结果写出来的代码调用了不存在的接口。你给它接了搜索引擎，它搜到了过时的方案还当宝贝用。

✗ 还缺什么

Context解决了"信息不够"的问题，但没解决"行为失控"的问题。模型有了知识，但没有纪律。

LAYER 03

Harness Engineering

——给AI套上马具

Harness就是给AI套上的规矩——能做什么、不能做什么、做错了怎么拉回来。

2026年2月，HashiCorp联合创始人Mitchell Hashimoto在一篇博客中正式提出了"Harness Engineering"这个术语。他用了一个精准的比喻：模型是马，Harness是马具。马有力气、跑得快，但你放它自己跑，它冲进邻居家的菜地。套上缰绳、马鞍、嚼子，才能让它精准地拉着马车走你想走的路。

Agent的本质就是模型加一套规矩，模型负责想，规矩负责管，两者缺一不可。

Harness这套规矩管四件事——

约束（Constrain）：Agent能做什么——架构边界、依赖规则、工具访问权限白名单

告知（Inform）：Agent应该做什么——上下文文档、项目指令、编码规范

验证（Verify）：Agent做对了没有——测试、Lint、CI校验

纠正（Correct）：Agent出错时怎么办——反馈回路、自我修复机制

有个实验很说明问题：LangChain仅仅重新设计了Agent运行的Harness环境，在Terminal Bench 2.0基准测试上从第30名飙到前5——没动模型一个参数，没换更贵的API，没做任何微调。安全研究员Can Boluk只改了工具接口格式，编码基准分数从6.7%跳到68.3%。同样的模型，换一套Harness，效果天差地别——

Agent的能力上限不是模型决定的，是Harness决定的。

✓ 解决了什么

Agent不再是"脱缰野马"，它有纪律了。

✗ 还缺什么

Agent跑偏了，Harness能拉回来。但谁来触发下一轮执行？谁来判断当前任务完成了没有？谁来决定接下来该做什么？还是你。你坐在那里，一轮一轮地"跑-看结果-改-再跑"。Harness让Agent靠谱了，但你的人肉调度成本一点没降。

LAYER 04

Loop Engineering

——让系统自己转起来

2026年6月，Peter Steinberger在X上发了两句话：别再一条一条给Agent写提示词了，去设计一个循环，让循环替你提示它。据公开报道，一周内浏览量达数百万。

Claude Code创建者Boris Cherny说得更直白："我不再给Claude写提示词了，我写循环。循环自己决定该干什么，我的工作是设计这些循环。"

Google Cloud AI总监Addy Osmani给出了正式定义：Loop Engineering就是用系统取代你自己去提示Agent。你设计系统，系统替你驱动。

一个Loop的运转逻辑，说白了就三组动作——

第一组：自己找活干、自己找资料。Agent自动找到下一件要做的事（定时触发、事件监听、上一轮输出触发），然后自动从文件、向量索引、上一轮摘要中组装上下文——不需要你推它。

第二组：替你写提示词、替你执行。Harness自动生成Prompt，不是人写的；然后执行动作——写文件、跑测试、调API、开PR——不需要你盯着。

第三组：跑完自己检查、自己决定下一步。捕获结果并结构化记录，判断是否继续、是否修正、是否终止——不需要你判断。

✓ 解决了什么

人不再需要每轮手动推动，系统自己转。

听起来很美对吧？全自动，你喝咖啡它干活，你睡觉它还在跑。

但我要泼一盆冷水——

征哥锐评

别急着跳Loop，先把Harness打牢

市面上99%的文章都在说"Loop是未来，赶紧上"。我同意Loop是未来，但"赶紧上"这三个字，我要打一个鲜红的大叉。

为什么？因为Loop的可靠性，完全建立在Harness的底子之上。

想想Loop在干什么——它让Agent自动跑、自动检查、自动修正、自动进入下一轮。那问题来了：如果Agent跑偏了，Harness能拉回来吗？如果同一个错误在循环里反复出现，你的纠正机制够不够硬？如果Agent在自动调度中调了不该调的工具，你的权限白名单拦得住吗？

Loop不是让一个靠谱的Agent更高效，Loop是让一个不靠谱的Agent更快地犯错——而且是连续犯错、自动犯错、你睡觉的时候犯错。想象一下：你下班了，Agent在生产环境自动跑了一夜，第二天早上来一看——代码改了47个文件，其中23个是错的，而且错误还在循环里自我强化，越改越偏。你花一整天都未必能收拾干净。

你在Harness阶段没打牢的东西，到了Loop阶段会被放大十倍。

那"打牢Harness"到底意味着什么？三个硬指标——

① Skill沉淀

你的团队能把重复出现的任务模式封装成Skill吗？Skill就是Agent的"技能包"——带目录的说明书式提示词，渐进式披露，按需加载。

自检：你的团队有没有把重复出现的任务模式封装成可复用的技能包？如果没有，Agent每次都是裸奔上岗，Loop一转起来，就是裸奔循环。

② 工具权限白名单

Agent能调哪些API、能访问哪些文件、能执行哪些命令——这些边界你划清楚了吗？

自检：Agent能调哪些API、能碰哪些文件——你能一口气说出来吗？说不出来就是没划清。Harness阶段划不清，Loop阶段Agent自己调度，它可不会"自觉"不去碰生产环境。

③ 输出校验

Agent干完活，你怎么判断它干对了？测试跑过了？Lint通过了？CI绿灯了？

自检：Agent干完活，有没有自动化手段判断它干对了？如果全靠人看，校验闭环就没合上。如果你在Harness阶段都没有自动化的校验闭环，Loop阶段谁来替你判断"这一轮跑得对不对"？没人判断，循环就是空转。

Harness是Loop的地基。地基没打牢，楼盖得越高，塌得越快。

FIN

最后

Karpathy说"停止写代码"，Boris Cherny说"我写循环"，这些大佬的话都没错。但你得看清楚他们说话的前提——他们的Harness早就打牢了。Boris的Claude Code团队，代码100%由AI产出，峰值时每天提交十到三十个PR，那是因为他们有完整的Skill体系、严格的工具权限、自动化的校验闭环。他不是"跳"到Loop的，他是"走"到Loop的。

所以别急。先看你的Harness：Skill沉淀了吗？权限划清了吗？校验闭环了吗？三个都过了，再上Loop不迟。

三个没过就上Loop？那你不是在用AI提效，你是在用AI加速犯错。

正规军不打无准备之仗。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-18，如有侵权请联系 cloudcommunity@tencent.com 删除

工具