Openclaw 的火爆程度真的超出我的想象。。。
我自己虽然部署了几个实例,但是老实说,目前我还没太找到对我真正有用的场景。。。
所以大部分时间也处于一个探索的状态。。。
但是OpenClaw 官方发的一个Benchmark 反而更让我有兴趣。
网址在这儿: https://pinchbench.com/
在龙虾🦞这个专门的Agent场景测试里,表现比较好的模型是gemini-3-flash, minimax-m2.1, kimi-k2.5 这些模型
一个非常反直觉的事情是,minimax-m2.5 的表现反而没有minimax-m2.1 来的好,Gemini-3-flash 这个模型真的被很多人低估了,以及新出的gpt-5.4看上去表现没有我想象中那么好。
这跟我自己的测试体感还是相符合的;
在我自己的Agent 场景测试里,
https://www.shopbench.ai/
Gemini-3-flash表现确实非常好,而且速度快,成本也算低;MiniMax- M2.5 我测下来相比于MiniMax- M2.1 确实还真就下滑了。。。
还是建议大家在玩龙虾的时候,对于Agent背后的模型要多加考虑一下,最好是能平衡一下成本和表现。
很多时候觉得自己的龙虾笨的不行,有很大一部分原因是背后的模型不太行。。。