昨天马斯克刚发布 Grok 4.1,结果今天凌晨就被 Gemini 3 给反超了。 北京时间今天零点整,Gemini 3 突然发布,直接拿下 LMArena 总榜第一,而且是横扫所有评测榜单。昨天 Grok 4.1 刚刷出来的成绩,转眼就被超过去了。

山姆·奥特曼和马斯克都第一时间发来"贺电"。 三家大模型公司齐聚一堂,X 平台上的梗图满天飞,甚至有人在评论区问马斯克:Grok 4.2 什么时候出?

01、项目负责人自曝:改进预训练和后训练是关键
比起冷冰冰的榜单数字,更让人关注的是 Gemini 项目联合负责人 Oriol Vinyals 的爆料。这位谷歌 DeepMind 研究副总裁直接揭开了 Gemini 3 的底牌:
"Gemini 3 的秘密其实很简单——我们改进了预训练和后训练。"
他特别强调了两点:
预训练方面: 很多人觉得模型扩展已经到头了,但这次团队实现了巨大飞跃。2.5 版和 3.0 版之间的差距,是他们见过的最大差距之一。Oriol 说:"前路无限,没有尽头!"
后训练方面: 这块依然是"绿地"(完全的空白地带),算法优化和改进空间还很大。3.0 版本也不例外,这都得益于团队的出色工作。

根据之前泄露的模型卡信息,谷歌从零开始在 TPU 上训练了这个模型,采用了 MoE(专家混合)架构,输入 100 万 Token,输出 64k Token。MoE 架构意味着即使性能爆炸式提升,成本也不会太高——这对开发者来说可是个好消息。
02、在所有主流基准测试中都是第一梯队
谷歌称 Gemini 3 是他们在通往 AGI 路上的又一大步。它是目前世界上最好的多模态理解模型,也是谷歌迄今最强的智能体和 vibe 编码模型。
具体成绩有多猛?
Gemini 3 Pro 以 1501 Elo 的成绩登顶 LMArena 排行榜。在"人类最后的考试"(无工具情况下)中达到 37.5%,在 GPQA Diamond 上更是拿到了 91.9%,展现出博士级的推理水平。

数学方面,它在 MathArena Apex 上取得 23.4% 的最新 SOTA 成绩,为前沿模型树立了新标杆。
多模态推理上也全面领先:
它还在 SimpleQA Verified 上取得 72.1% 的 SOTA 成绩,事实准确性有了显著进步。这意味着 Gemini 3 Pro 能以高度可靠性解决科学、数学等众多复杂领域的难题。
03、Deep Think 模式:推理能力再上一层楼
Gemini 3 的 Deep Think 模式把智能的边界又往前推了一步,在推理与多模态理解能力上实现跃升。
测试中,Gemini 3 Deep Think 的表现全面超越了 Gemini 3 Pro:

04、三大核心能力:学习、创作和规划
学习任何内容
Gemini 从诞生之初就被设计为能够无缝整合多模态信息,覆盖文本、图像、视频、音频和代码。Gemini 3 更是将多模态推理推向新前沿,依托最先进的推理、视觉与空间理解、顶级多语种能力,以及 100 万 Token 超长上下文。
比如你想学习家族传统料理,Gemini 3 能识别并翻译多语言的手写食谱,把它们整理成一本可分享的家庭食谱。或者你喂给它学术论文、长视频讲座,它就能生成互动卡片、可视化图表等学习材料,帮你快速掌握核心内容。
创造任何东西
Gemini 3 是谷歌迄今最强的氛围编码和智能体编码模型,让产品具备更高自主性,进一步提升开发效率。它以 1487 Elo 的成绩登顶 WebDev Arena 排行榜。在测试模型使用工具操作终端能力的 Terminal-Bench 2.0 中,取得 54.2% 的成绩。在衡量编码智能体能力的 SWE-bench Verified 中,达到 76.2%,表现大幅领先 2.5 Pro。
规划任何事
Gemini 3 在测试长期规划能力的 Vending-Bench 2 中登顶。这个基准通过模拟经营自动售货机业务来评估模型的长周期规划和管理能力。在这一测试里,Gemini 3 Pro 能在整整一年的模拟运营中保持稳定的工具使用和决策质量,在不偏离任务的前提下取得更高收益。

05、实测体验:一句提示词就能做多模态开发
我第一时间体验了 Gemini 3,效果确实相当惊艳。
第一个测试:用 HTML 生成 3D 演示动画,向中学生演示 DNA 双螺旋的复制过程。
大概十几秒左右就生成了。效果看起来还不错,碱基图例和复制过程演示都比较完整。

第二个测试:复刻一个 MacOS 操作系统。
这次 Gemini 3 同样只花了十几秒左右,就复刻了一个 MacOS 界面。顶部菜单栏、对话框和 Docker 栏都是非常典型的 Mac 风格,包括 Docker 栏的鱼眼放大效果做得还不错,右上角也会显示当前的真实时间。

虽然免费的 token 不多,但通过这两个案例的实测,我真切感觉到 Gemini 3 彻底抹平了多模态开发的门槛。即使是一个完全不懂代码的编程小白,也可以靠一句简单的提示词做出一个 3D 动画、一个游戏或者复刻一个操作系统。这种多模态理解能力带来的体验是非常震撼的。
跟我之前实测过的其他大模型(MiniMax M2、Sonnet 4.5 等)相比,Gemini 3 的响应速度快得惊人,平均十几秒钟就能做好一个网页或动画,而且效果都还不错。在冷冰冰的榜单和数据之外,这种开发效率和成果让我实打实体会到了 Gemini 3 的强大。
在 X 平台上,Andrej Karpathy 大神也第一时间试用了 Gemini 3.0,并表示对它的"初步印象很好"。
不过也有网友指出,Gemini 3 的空间推理能力还是比较一般,这也是所有大模型的通病。
那么,你觉得 Gemini 3 怎么样?你想用它来做些什么呢?欢迎在评论区留下你的看法。
如何使用上最新Gemini 3?
为了让广大用户可以用上平价且方便(无须因为地缘或者账号折腾)的正版Gemini 3,这里给大家推荐一个ai宝藏网站和使用教程:
1.注册账号并登陆
网址:https://dafoai.com
2.订阅服务

3.选购套餐

选购指南:
所有套餐包含的模型都是一样的(都包含最新的Grok 4.1、GPT 5和Gemini 3模型),仅在研值数量上有所区分。
研值:即根据与AI大模型对话长度所扣取的一种计费方式,研值越多意味着可提问的次数或对话长度越多(当前Grok为免研值模型,可无限畅用)
4.点击“进入”即可进入GPT

5.开始使用
