🤯 Gemini 3 Pro 确实强得离谱,但离“全能神”还差这 1% 的距离!
大家都在刷 Gemini 3 Pro 屠榜了,那张红得发紫的成绩单确实吓人。数学吊打 GPT-5.1,视觉推理更是断层领先。
但是! 作为一个冷静的吃瓜群众,我拿着放大镜仔细看了基准测试,发现哪怕是这个“六边形战士”,也有它的阿喀琉斯之踵。
1. 代码能力:Claude 依然是“程序员之神”
别被 Gemini 的全能光环骗了。在 SWE-Bench Verified(目前最硬核的真实修 Bug 测试)中:
* 🤖 Claude Sonnet 4.5: 77.2% * 🤖 GPT-5.1: 76.3% * 🤖 Gemini 3 Pro: 76.2%
看懂了吗?Gemini 在这里居然是第三!
虽只差 1%,但说明在纯文本代码逻辑、架构理解和“听懂人话改 Bug”这件事上,Claude 依然是那个最像资深工程师的模型。
Gemini 可能因为太擅长推理(Over-reasoning),反而容易在简单修补上“想太多”或者“用力过猛”。如果你是靠写代码吃饭,Claude 4.5 依然是你的首选,Gemini 并没有抢走这个王座。
2. 🧠 “过目不忘”的假象:百万级长文本的尴尬
Gemini 3 Pro 号称支持超长上下文,但在 MRCR v2 (1M pointwise) 测试中,它的得分只有 26.3%。
* 这是什么概念? 丢给它 100 万字的书,问它一个极细的细节,它有 75% 的概率 找不准或找不全! * 虽然其他模型(Claude/GPT)在这个测试上直接“不支持”或更低,但 26% 的准确率意味着:在大海捞针这件事上,目前的 AI 依然不可靠。
别真把它当成不会出错的超级数据库用,幻觉和遗漏依然存在。
3. “卷无可卷”的理科天花板
在 AIME 2025(数学竞赛)上,Gemini 3 Pro 拿了 100%。很强吗?很强。 但 Claude Sonnet 4.5 也拿了 100%。
这意味着在现有的评估体系下,顶尖模型在逻辑题上已经触顶了。Gemini 并没有拉开代差,大家都是满分,谁比谁高贵?这也是为什么它在 SWE-Bench 上拉不开差距的原因——基础能力大家都溢出了。
总结一下
Gemini 3 Pro 是目前的综合最强,特别是你要解数学怪题、要它操作电脑屏幕、或者读复杂的图表,它是唯一的神。
但如果你只是想让它安安静静地帮你修 Python 代码,或者处理极其枯燥的纯文本逻辑,Claude Sonnet 4.5 依然坚挺,完全不用焦虑换模型!
各位,你们会为了这 1% 的代码差距坚守 Claude,还是为了视觉能力无脑冲 Gemini?评论区聊聊!
#Gemini3Pro #Claude #GPT5 #AI测评 #大模型 #程序员