文章/答案/技术大牛

发布

自带强迫症AI Agent，不检查到 100 分不交卷

文章来源：企鹅号 - 小互AI

OpenSquilla · 0.4.0

还记得上个月推荐给大家的 OpenSquilla 吗？就是那个会自动把请求路由到不同的模型、还能写出 metaskill 的 Agent。

没看过的小伙伴可以看这篇原来 Agent 该这么跑我被一个开源项目点醒了...

他们刚刚更新了 0.4.0 版，这次有客户端了，直接安装，简单设置一下，开箱即用。老用户直接升级，不用担心原来的所有数据。

客户端上线三步开箱即用

01选择简单设置

02填写一个 openrouter 的 apikey

03选择使用什么网络搜索方案

这时候，所有的设置都自动配置好了，模型路由也自动使用 openrouter 的可用模型，设置了从简单请求到复杂请求的分层配置。

02 · CODE-TASK

这不是重点。重点是，这个版本植入了强迫症 DNA，官方名称 code-task。

我查了一下，这在软件工程里叫 TDD（测试驱动开发），了解之后，这还真是个好东西。

什么叫测试驱动开发？

红Red

先写一条此刻必然失败的测试。改 bug 之前，先针对这个 bug 写一条明确、可重复运行的检查。因为 bug 还在，这条检查现在必然不通过、亮红灯。讲究就在这个「必然失败」上：它得先失败，才能证明这条检查真的盯得住这个 bug；要是它一上来就是绿的，那这条测试根本没测到点子上，修没修都看不出来。

绿Green

改完，让同一条测试由红转绿。动手改代码，改对了，刚才那条红灯检查就变绿。同一条测试、同一个标准，之前抓得住 bug、现在能通过，这就是「改对了」的硬证据，而不是一句口头保证。

回归Regression

把原有的整套测试再跑一遍。最后，把项目里那些原本就存在、且原本全都通过的测试，从头到尾重新跑一遍，确认没有哪一条因为这次改动从通过变成失败。严谨地说，它保证的是「原来测过、原来没问题的地方，现在依然没问题」：覆盖多细，取决于这套测试本身有多全，但这已经足以拦下绝大多数「改 A 崩 B」的意外。

三关全过才算数，任何一关没过，直接打回自己重改。OpenSquilla 把这套流程固化在 AI 编程的过程中，无法跳过，必须按照这套标准跑完，不然无法回复。

我的痛点

这个解决了我一大痛点啊！我用 AI 写程序，根本不懂怎么测试，每次 AI 交付结果，我都要主动说「你开个子代理测试一下」，他才会测试；如果我把测试标准写到 claude.md 里，多轮对话后他就会忘，特别是上下文压缩后，有很大概率会忽略测试。

不止于测试还有两处强迫症细节

OpenSquilla 这强迫症还不止体现在测试上。

隔离的副本里施工

它改代码，是在一份隔离的副本里施工，不碰你的主线代码，只有三关全过的改动才搬进来，改砸了也伤不到你原来的东西。

自动戴上「专注耳塞」

它一进入编码模式，还会自动戴上「专注耳塞」：把画图、发消息、开网页这些跟写代码无关的工具全部关掉，逼自己心无旁骛，只干「把代码改对」这一件事。

一个真实案例让它做我的终端副屏

刚好我有一个特别的想法要实现，干脆就让 OpenSquilla 来干。

我喜欢在终端里用 claudecode，但有时候他的回复又长又干，看得很累，有时候还看不懂。我要做一个副屏，吸附在终端旁边，每一轮对话如果有很多内容或者强逻辑，就做成简单易懂的 HTML 显示在副屏里，这样我就轻松多了。

直接把这个需求告诉 OpenSquilla，我以为这种需求很复杂，没想到 OpenSquilla 判定后，决定使用 Deepseek v4 pro 来处理。我还以为这种编程会用到 opus，最少也要用到 glm5.2 吧。

难道我这个需求非常简单吗？OpenSquilla 觉得 Deepseek v4 pro 能搞定那就给他搞，看看到底行不行。

OpenSquilla 一边跑一边测试，直到第一个版本交给我，没想到直接给我干出来了。就是界面是白色的，为了配合我黑洞洞的终端，我让他把颜色改成黑色的。一下跑得太过瘾，等我想起来截图的时候，已经到色彩改完了。

这里有一个细节：我发截图给 OpenSquilla，因为 Deepseek v4 pro 看不了图，于是它把图发给了 kimi k2.6，让他看图，再把看图结果给 Deepseek v4 pro。

只要运行 claudecode，这个副屏就会自动启动，吸附在终端旁边。我和 claude 对话，就能把对话内容写成 HTML，展示在副屏里。

我也不懂这些代码，不知道 Deepseek v4 pro 写得怎么样，也不知道 OpenSquilla 这套 code-task 到底做没做、做得怎么样。

我让 Opus 4.8 来看看这个项目的质量，原来 OpenSquilla 真的搞了 19 项测试，怪不得能直接交付一个成品给我。它是要彻底跑通才算任务完成，这是不是现在正在流行的 Loop Engineering？通过循环直到达成目标。

很好奇这 19 项测试到底在测什么，我让 opus 也分析了一遍，原来 OpenSquilla 把所有的功能点全部做了红绿测试，每一个测试必须三项全过，怪不得 Deepseek v4 pro 能发挥得这么稳定。

19项测试

× 3红 · 绿 · 回归

每一项都要三关全过

你可能觉得，这不就我一个人用着爽？来看组实测：DRACO 榜单把各家模型丢进深度研究任务、按搜索引擎分组，比平均分和平均成本——OpenSquilla 的多模型路由，DuckDuckGo 组和 Brave 组两组都是第一：分最高，还最省钱。

这就是路由加 code-task 的价值：不是图便宜随便挑个弱模型糊弄，而是在保证结果能交付的前提下，把钱花在刀刃上。Brave 组它成本才 0.12，Opus 4.8 要 1.62，分数反而被它甩在后面。

联网搜索「硬化」回答必须带出处

这次更新还有一个挺好的改进，就是把联网搜索给「硬化」了。现在 OpenSquilla 内置了一批搜索提供商：

DuckDuckGoBochaBraveTavilyExa

推荐平时默认用 DuckDuckGo，它完全免费，但搜索频率高了会限流；还可以注册一个 Tavily 的 api，有每个月 1000 次的免费额度。加起来基本功够用了。

OpenSquilla 把搜索拆成了两个工具，各管各的：

web_search带出处

给你的回答是带出处的，每个结果从哪里搜来的会标明来源，不是张口就来。以前你根本分不清结果来自 AI 自己的知识库，还是真搜来的。

我让 OpenSquilla 搜一下类似我这种终端副屏有没有什么成熟的开源项目，它确实从来源网站里找到结果并总结出来。我发现这个项目还真没有人做，而且真的好用，我准备深入开发，然后开源给大家用。

web_discover轻量 · 快

只是想快速摸一下线索、探一探有没有相关信息时用，轻量、快，不求详尽。

MetaSkills从「自作主张」到听你指挥

对了，这版还有个小改动，但我挺喜欢：MetaSkills 改成手动触发了。

MetaSkills 你可以理解成一个个「打包好的工作流」：把一串常用的操作固化成一个技能，需要的时候一键跑，省得每次都从头交代。以前它是自动触发的，OpenSquilla 觉得你这个场景该用哪个，就自己上了。省事是省事，但有时候你压根没想让它跑，它自己跑起来，反而有点失控的感觉。

0.4.0 改成了手动，规矩很简单：

/meta把所有可用的工作流列出来给你看

/meta <名字>才跑指定的那一个

用不用、用哪个，主动权交回到你手上。

写在最后把靠谱做成 DNA

OpenSquilla 0.4.0 没有更新花哨的功能，它做的都是给 Agent 立规矩的事：

01写代码，红绿回归三关不过不交货；

02联网回答，必须带出处不许瞎编；

03工作流从「自作主张」改成「听你指挥」。

它把强迫症、拿证据、可控制这三件事，做成了 DNA。

其实我们使用 AI 工具，用来用去，最大的需求就是靠谱。OpenSquilla 这次更新又走在了对的路上。

特别是 code-task，它给 OpenSquilla 的模型路由功能插上了翅膀。之前的版本，根据用户不同的请求会路由到不同的模型，但弱一点的模型到底能不能靠谱完成任务，实在没法保证结果；如果反复出错，最终还是靠很强的模型解决，费用反而比直接用强模型多。code-task 加上后，不管路由到哪个模型，结果一定是没有错误、可交付的。

想上手的，去 OpenSquilla 主页下载 0.4.0 就行，很值得试一试。

下载 OpenSquilla 0.4.0：opensquilla.ai

发表于: 1天前2026-07-03 13:55:16
原文链接：https://page.om.qq.com/page/OSVEOB-iOp6IlmMYxZ0gvUlQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

自带强迫症AI Agent，不检查到 100 分不交卷

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐