首页
学习
活动
专区
圈层
工具
发布

自带强迫症AI Agent,不检查到 100 分不交卷

OpenSquilla · 0.4.0

还记得上个月推荐给大家的 OpenSquilla 吗?就是那个会自动把请求路由到不同的模型、还能写出 metaskill 的 Agent。

没看过的小伙伴可以看这篇原来 Agent 该这么跑 我被一个开源项目点醒了...

他们刚刚更新了 0.4.0 版,这次有客户端了,直接安装,简单设置一下,开箱即用。老用户直接升级,不用担心原来的所有数据。

01

客户端上线三步开箱即用

01选择简单设置

02填写一个 openrouter 的 apikey

03选择使用什么网络搜索方案

这时候,所有的设置都自动配置好了,模型路由也自动使用 openrouter 的可用模型,设置了从简单请求到复杂请求的分层配置。

02 · CODE-TASK

这不是重点。重点是,这个版本植入了强迫症 DNA,官方名称 code-task。

我查了一下,这在软件工程里叫 TDD(测试驱动开发),了解之后,这还真是个好东西。

什么叫测试驱动开发?

红Red

先写一条此刻必然失败的测试。改 bug 之前,先针对这个 bug 写一条明确、可重复运行的检查。因为 bug 还在,这条检查现在必然不通过、亮红灯。讲究就在这个「必然失败」上:它得先失败,才能证明这条检查真的盯得住这个 bug;要是它一上来就是绿的,那这条测试根本没测到点子上,修没修都看不出来。

绿Green

改完,让同一条测试由红转绿。动手改代码,改对了,刚才那条红灯检查就变绿。同一条测试、同一个标准,之前抓得住 bug、现在能通过,这就是「改对了」的硬证据,而不是一句口头保证。

回归Regression

把原有的整套测试再跑一遍。最后,把项目里那些原本就存在、且原本全都通过的测试,从头到尾重新跑一遍,确认没有哪一条因为这次改动从通过变成失败。严谨地说,它保证的是「原来测过、原来没问题的地方,现在依然没问题」:覆盖多细,取决于这套测试本身有多全,但这已经足以拦下绝大多数「改 A 崩 B」的意外。

三关全过才算数,任何一关没过,直接打回自己重改。OpenSquilla 把这套流程固化在 AI 编程的过程中,无法跳过,必须按照这套标准跑完,不然无法回复。

我的痛点

这个解决了我一大痛点啊!我用 AI 写程序,根本不懂怎么测试,每次 AI 交付结果,我都要主动说「你开个子代理测试一下」,他才会测试;如果我把测试标准写到 claude.md 里,多轮对话后他就会忘,特别是上下文压缩后,有很大概率会忽略测试。

03

不止于测试还有两处强迫症细节

OpenSquilla 这强迫症还不止体现在测试上。

隔离的副本里施工

它改代码,是在一份隔离的副本里施工,不碰你的主线代码,只有三关全过的改动才搬进来,改砸了也伤不到你原来的东西。

自动戴上「专注耳塞」

它一进入编码模式,还会自动戴上「专注耳塞」:把画图、发消息、开网页这些跟写代码无关的工具全部关掉,逼自己心无旁骛,只干「把代码改对」这一件事。

04

一个真实案例让它做我的终端副屏

刚好我有一个特别的想法要实现,干脆就让 OpenSquilla 来干。

我喜欢在终端里用 claudecode,但有时候他的回复又长又干,看得很累,有时候还看不懂。我要做一个副屏,吸附在终端旁边,每一轮对话如果有很多内容或者强逻辑,就做成简单易懂的 HTML 显示在副屏里,这样我就轻松多了。

直接把这个需求告诉 OpenSquilla,我以为这种需求很复杂,没想到 OpenSquilla 判定后,决定使用 Deepseek v4 pro 来处理。我还以为这种编程会用到 opus,最少也要用到 glm5.2 吧。

难道我这个需求非常简单吗?OpenSquilla 觉得 Deepseek v4 pro 能搞定那就给他搞,看看到底行不行。

OpenSquilla 一边跑一边测试,直到第一个版本交给我,没想到直接给我干出来了。就是界面是白色的,为了配合我黑洞洞的终端,我让他把颜色改成黑色的。一下跑得太过瘾,等我想起来截图的时候,已经到色彩改完了。

这里有一个细节:我发截图给 OpenSquilla,因为 Deepseek v4 pro 看不了图,于是它把图发给了 kimi k2.6,让他看图,再把看图结果给 Deepseek v4 pro。

只要运行 claudecode,这个副屏就会自动启动,吸附在终端旁边。我和 claude 对话,就能把对话内容写成 HTML,展示在副屏里。

我也不懂这些代码,不知道 Deepseek v4 pro 写得怎么样,也不知道 OpenSquilla 这套 code-task 到底做没做、做得怎么样。

我让 Opus 4.8 来看看这个项目的质量,原来 OpenSquilla 真的搞了 19 项测试,怪不得能直接交付一个成品给我。它是要彻底跑通才算任务完成,这是不是现在正在流行的 Loop Engineering?通过循环直到达成目标。

很好奇这 19 项测试到底在测什么,我让 opus 也分析了一遍,原来 OpenSquilla 把所有的功能点全部做了红绿测试,每一个测试必须三项全过,怪不得 Deepseek v4 pro 能发挥得这么稳定。

19项测试

× 3红 · 绿 · 回归

每一项都要三关全过

你可能觉得,这不就我一个人用着爽?来看组实测:DRACO 榜单把各家模型丢进深度研究任务、按搜索引擎分组,比平均分和平均成本——OpenSquilla 的多模型路由,DuckDuckGo 组和 Brave 组两组都是第一:分最高,还最省钱。

这就是路由加 code-task 的价值:不是图便宜随便挑个弱模型糊弄,而是在保证结果能交付的前提下,把钱花在刀刃上。Brave 组它成本才 0.12,Opus 4.8 要 1.62,分数反而被它甩在后面。

05

联网搜索「硬化」回答必须带出处

这次更新还有一个挺好的改进,就是把联网搜索给「硬化」了。现在 OpenSquilla 内置了一批搜索提供商:

DuckDuckGoBochaBraveTavilyExa

推荐平时默认用 DuckDuckGo,它完全免费,但搜索频率高了会限流;还可以注册一个 Tavily 的 api,有每个月 1000 次的免费额度。加起来基本功够用了。

OpenSquilla 把搜索拆成了两个工具,各管各的:

web_search带出处

给你的回答是带出处的,每个结果从哪里搜来的会标明来源,不是张口就来。以前你根本分不清结果来自 AI 自己的知识库,还是真搜来的。

我让 OpenSquilla 搜一下类似我这种终端副屏有没有什么成熟的开源项目,它确实从来源网站里找到结果并总结出来。我发现这个项目还真没有人做,而且真的好用,我准备深入开发,然后开源给大家用。

web_discover轻量 · 快

只是想快速摸一下线索、探一探有没有相关信息时用,轻量、快,不求详尽。

06

MetaSkills从「自作主张」到听你指挥

对了,这版还有个小改动,但我挺喜欢:MetaSkills 改成手动触发了。

MetaSkills 你可以理解成一个个「打包好的工作流」:把一串常用的操作固化成一个技能,需要的时候一键跑,省得每次都从头交代。以前它是自动触发的,OpenSquilla 觉得你这个场景该用哪个,就自己上了。省事是省事,但有时候你压根没想让它跑,它自己跑起来,反而有点失控的感觉。

0.4.0 改成了手动,规矩很简单:

/meta把所有可用的工作流列出来给你看

/meta <名字>才跑指定的那一个

用不用、用哪个,主动权交回到你手上。

07

写在最后把靠谱做成 DNA

OpenSquilla 0.4.0 没有更新花哨的功能,它做的都是给 Agent 立规矩的事:

01写代码,红绿回归三关不过不交货;

02联网回答,必须带出处不许瞎编;

03工作流从「自作主张」改成「听你指挥」。

它把强迫症、拿证据、可控制这三件事,做成了 DNA。

其实我们使用 AI 工具,用来用去,最大的需求就是靠谱。OpenSquilla 这次更新又走在了对的路上。

特别是 code-task,它给 OpenSquilla 的模型路由功能插上了翅膀。之前的版本,根据用户不同的请求会路由到不同的模型,但弱一点的模型到底能不能靠谱完成任务,实在没法保证结果;如果反复出错,最终还是靠很强的模型解决,费用反而比直接用强模型多。code-task 加上后,不管路由到哪个模型,结果一定是没有错误、可交付的。

想上手的,去 OpenSquilla 主页下载 0.4.0 就行,很值得试一试。

下载 OpenSquilla 0.4.0:opensquilla.ai

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OSVEOB-iOp6IlmMYxZ0gvUlQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券