
从Prompt到Loop的四层演进,每层只讲两件事:解决了什么,还缺什么。到最后你自己就会明白——为什么不是所有人都该直接跳到Loop。
停!
别急着上Loop!
我知道你在想什么——Karpathy说了"停止写代码",Peter Steinberger说了"别再给Agent写提示词了,去设计循环",Claude Code创建者Boris Cherny说了"我不再给Claude写提示词了,我写循环",全网都在喊"Loop是未来,赶紧上"。
你慌了。而且你慌得有道理——Loop是四层演进的最高层,大佬们都在用:Karpathy一晚能跑约100个实验,Boris的团队代码100%由AI产出,峰值时每天提交十到三十个PR。这些信号都在告诉你一件事:上Loop就是进阶,不上就是落后。
对吧?你是不是就是这么想的?
但我要说一句可能让你不舒服的话:你的Harness底子打牢了吗?
这不是在吓你。这是我在企业里推AI研发提效时,看到最多的一个坑。
今天这篇,我把从Prompt到Loop的四层演进给你捋清楚。每层只讲两件事:解决了什么,还缺什么。到最后你自己就会明白——为什么不是所有人都该直接跳到Loop。
LAYER 01
——你跟AI说清楚了吗?
2023年,所有人都在卷提示词工程。"你是一个资深的Java架构师""请用专业但易懂的语言""分步骤思考"——你花半小时调提示词,就为了让模型输出像样一点。
✓ 解决了什么
怎么跟模型说清楚你要什么。
提示词工程确实有用,但它有个致命的短板——模型只记得你这一次说了什么。下一轮对话,你精心调好的提示词全没了。你得重新说一遍。同一个项目,换个人来用,又得从头调。
✗ 还缺什么
说白了,Prompt工程就是"每次都手把手教"。模型没有记忆,没有上下文,没有纪律。你累不累?
LAYER 02
——给模型看够了吗?
2024年,行业意识到光靠提示词不够。你跟一个人说话,不光要告诉他做什么,还得给他看资料、看背景、看上下文。于是Context Engineering来了——RAG检索、知识库注入、项目文档加载、对话历史管理,把模型需要的信息在推理之前喂够。
✓ 解决了什么
模型不再是"空手上考场",它有资料了。
但新的问题冒出来了——Agent跑偏了,你拉不回来。
模型有了上下文,确实能干活了。但它可能搜错API、调错工具、执行到一半走岔路。你给它看了项目文档,它理解了需求,结果写出来的代码调用了不存在的接口。你给它接了搜索引擎,它搜到了过时的方案还当宝贝用。
✗ 还缺什么
Context解决了"信息不够"的问题,但没解决"行为失控"的问题。模型有了知识,但没有纪律。
LAYER 03
——给AI套上马具
Harness就是给AI套上的规矩——能做什么、不能做什么、做错了怎么拉回来。
2026年2月,HashiCorp联合创始人Mitchell Hashimoto在一篇博客中正式提出了"Harness Engineering"这个术语。他用了一个精准的比喻:模型是马,Harness是马具。马有力气、跑得快,但你放它自己跑,它冲进邻居家的菜地。套上缰绳、马鞍、嚼子,才能让它精准地拉着马车走你想走的路。
Agent的本质就是模型加一套规矩,模型负责想,规矩负责管,两者缺一不可。
Harness这套规矩管四件事——
约束(Constrain):Agent能做什么——架构边界、依赖规则、工具访问权限白名单
告知(Inform):Agent应该做什么——上下文文档、项目指令、编码规范
验证(Verify):Agent做对了没有——测试、Lint、CI校验
纠正(Correct):Agent出错时怎么办——反馈回路、自我修复机制
有个实验很说明问题:LangChain仅仅重新设计了Agent运行的Harness环境,在Terminal Bench 2.0基准测试上从第30名飙到前5——没动模型一个参数,没换更贵的API,没做任何微调。安全研究员Can Boluk只改了工具接口格式,编码基准分数从6.7%跳到68.3%。同样的模型,换一套Harness,效果天差地别——
Agent的能力上限不是模型决定的,是Harness决定的。
✓ 解决了什么
Agent不再是"脱缰野马",它有纪律了。
✗ 还缺什么
Agent跑偏了,Harness能拉回来。但谁来触发下一轮执行?谁来判断当前任务完成了没有?谁来决定接下来该做什么?还是你。你坐在那里,一轮一轮地"跑-看结果-改-再跑"。Harness让Agent靠谱了,但你的人肉调度成本一点没降。
LAYER 04
——让系统自己转起来
2026年6月,Peter Steinberger在X上发了两句话:别再一条一条给Agent写提示词了,去设计一个循环,让循环替你提示它。据公开报道,一周内浏览量达数百万。
Claude Code创建者Boris Cherny说得更直白:"我不再给Claude写提示词了,我写循环。循环自己决定该干什么,我的工作是设计这些循环。"
Google Cloud AI总监Addy Osmani给出了正式定义:Loop Engineering就是用系统取代你自己去提示Agent。你设计系统,系统替你驱动。
一个Loop的运转逻辑,说白了就三组动作——
第一组:自己找活干、自己找资料。Agent自动找到下一件要做的事(定时触发、事件监听、上一轮输出触发),然后自动从文件、向量索引、上一轮摘要中组装上下文——不需要你推它。
第二组:替你写提示词、替你执行。Harness自动生成Prompt,不是人写的;然后执行动作——写文件、跑测试、调API、开PR——不需要你盯着。
第三组:跑完自己检查、自己决定下一步。捕获结果并结构化记录,判断是否继续、是否修正、是否终止——不需要你判断。
✓ 解决了什么
人不再需要每轮手动推动,系统自己转。
听起来很美对吧?全自动,你喝咖啡它干活,你睡觉它还在跑。
但我要泼一盆冷水——
征哥锐评
市面上99%的文章都在说"Loop是未来,赶紧上"。我同意Loop是未来,但"赶紧上"这三个字,我要打一个鲜红的大叉。
为什么?因为Loop的可靠性,完全建立在Harness的底子之上。
想想Loop在干什么——它让Agent自动跑、自动检查、自动修正、自动进入下一轮。那问题来了:如果Agent跑偏了,Harness能拉回来吗?如果同一个错误在循环里反复出现,你的纠正机制够不够硬?如果Agent在自动调度中调了不该调的工具,你的权限白名单拦得住吗?
Loop不是让一个靠谱的Agent更高效,Loop是让一个不靠谱的Agent更快地犯错——而且是连续犯错、自动犯错、你睡觉的时候犯错。想象一下:你下班了,Agent在生产环境自动跑了一夜,第二天早上来一看——代码改了47个文件,其中23个是错的,而且错误还在循环里自我强化,越改越偏。你花一整天都未必能收拾干净。
你在Harness阶段没打牢的东西,到了Loop阶段会被放大十倍。
那"打牢Harness"到底意味着什么?三个硬指标——
① Skill沉淀
你的团队能把重复出现的任务模式封装成Skill吗?Skill就是Agent的"技能包"——带目录的说明书式提示词,渐进式披露,按需加载。
自检:你的团队有没有把重复出现的任务模式封装成可复用的技能包?如果没有,Agent每次都是裸奔上岗,Loop一转起来,就是裸奔循环。
② 工具权限白名单
Agent能调哪些API、能访问哪些文件、能执行哪些命令——这些边界你划清楚了吗?
自检:Agent能调哪些API、能碰哪些文件——你能一口气说出来吗?说不出来就是没划清。Harness阶段划不清,Loop阶段Agent自己调度,它可不会"自觉"不去碰生产环境。
③ 输出校验
Agent干完活,你怎么判断它干对了?测试跑过了?Lint通过了?CI绿灯了?
自检:Agent干完活,有没有自动化手段判断它干对了?如果全靠人看,校验闭环就没合上。如果你在Harness阶段都没有自动化的校验闭环,Loop阶段谁来替你判断"这一轮跑得对不对"?没人判断,循环就是空转。
Harness是Loop的地基。地基没打牢,楼盖得越高,塌得越快。
FIN
Karpathy说"停止写代码",Boris Cherny说"我写循环",这些大佬的话都没错。但你得看清楚他们说话的前提——他们的Harness早就打牢了。Boris的Claude Code团队,代码100%由AI产出,峰值时每天提交十到三十个PR,那是因为他们有完整的Skill体系、严格的工具权限、自动化的校验闭环。他不是"跳"到Loop的,他是"走"到Loop的。
所以别急。先看你的Harness:Skill沉淀了吗?权限划清了吗?校验闭环了吗?三个都过了,再上Loop不迟。
三个没过就上Loop?那你不是在用AI提效,你是在用AI加速犯错。
正规军不打无准备之仗。