首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >谷歌Gemini 3 Pro 屠榜,新的Agent IDE 免费使用Gemini 3 Pro、Claude Sonnet 4.5

谷歌Gemini 3 Pro 屠榜,新的Agent IDE 免费使用Gemini 3 Pro、Claude Sonnet 4.5

作者头像
Ai学习的老章
发布2025-11-29 18:38:18
发布2025-11-29 18:38:18
150
举报

大家好,我是 Ai 学习的老章。

这两天应该都被 Gemini-3-Pro 刷屏了

号称通向 AGI 的新里程碑

  • 🧠 顶尖的推理能力
  • 🖼️ 深度多模态理解
  • 💻 强大的一键编码能力,让你从提示到应用一步到位
  • 🤝 提升的代理能力,可以按照你的指示代你完成任务

本文梳理一下关于 Gemini-3-Pro 的全部情报

大力屠榜

Gemini 3 来的还有点静悄悄,最开始只是 i 流传出一个 Model Card,几乎在所有基准测试中拿下第一

Gemini 3 Pro 凭借最先进的推理与多模态能力,能够实现任何创意。它在每一项主要的 AI 基准测试中,表现都显著超越 2.5 Pro。它以突破性的 1501 Elo 分数荣登 LMArena 排行榜榜首。在 Humanity’s Last Exam(未使用任何工具的情况下得分 37.5%)和 GPQA Diamond(91.9%)中取得高分,展现了博士级的推理能力。它也为前沿模型的数学能力树立了新标准,在 MathArena Apex 上达到了 23.4% 的新高。除了文字,Gemini 3 Pro 也重新定义了多模态推理,在 MMMU-Pro 获得 81%,在 Video-MMMU 获得 87.6%。它还在 SimpleQA Verified 中取得了领先业界的 72.1%,展现了在事实准确性上的巨大进步。这意味着 Gemini 3 Pro 具备高度可靠性,能够解决科学和数学等广泛主题中的复杂问题。
Gemini 3 Pro 凭借最先进的推理与多模态能力,能够实现任何创意。它在每一项主要的 AI 基准测试中,表现都显著超越 2.5 Pro。它以突破性的 1501 Elo 分数荣登 LMArena 排行榜榜首。在 Humanity’s Last Exam(未使用任何工具的情况下得分 37.5%)和 GPQA Diamond(91.9%)中取得高分,展现了博士级的推理能力。它也为前沿模型的数学能力树立了新标准,在 MathArena Apex 上达到了 23.4% 的新高。除了文字,Gemini 3 Pro 也重新定义了多模态推理,在 MMMU-Pro 获得 81%,在 Video-MMMU 获得 87.6%。它还在 SimpleQA Verified 中取得了领先业界的 72.1%,展现了在事实准确性上的巨大进步。这意味着 Gemini 3 Pro 具备高度可靠性,能够解决科学和数学等广泛主题中的复杂问题。

Gemini 3 Pro 凭借最先进的推理与多模态能力,能够实现任何创意。它在每一项主要的 AI 基准测试中,表现都显著超越 2.5 Pro。它以突破性的 1501 Elo 分数荣登 LMArena 排行榜榜首。在 Humanity’s Last Exam(未使用任何工具的情况下得分 37.5%)和 GPQA Diamond(91.9%)中取得高分,展现了博士级的推理能力。它也为前沿模型的数学能力树立了新标准,在 MathArena Apex 上达到了 23.4% 的新高。除了文字,Gemini 3 Pro 也重新定义了多模态推理,在 MMMU-Pro 获得 81%,在 Video-MMMU 获得 87.6%。它还在 SimpleQA Verified 中取得了领先业界的 72.1%,展现了在事实准确性上的巨大进步。这意味着 Gemini 3 Pro 具备高度可靠性,能够解决科学和数学等广泛主题中的复杂问题。

后续其他基准测试我就不在放了,只看一下我经常关注的 Artificial Analysis 放出的一个最新指数——知识和幻觉评估基准 AA-Omniscience

Gemini 3 Pro 在AA-Omniscience 指数中占据了第一名的位置。

0 表示正确和错误答案数量相当,负分表示错误答案多于正确答案。
0 表示正确和错误答案数量相当,负分表示错误答案多于正确答案。

0 表示正确和错误答案数量相当,负分表示错误答案多于正确答案。

在评估中,Gemini 3 Pro 的幻觉率为 88%,与 Gemini 2.5 Pro 和 Gemini 2.5 Flash 相同。这表明 Gemini 3 Pro 在知识方面取得了显著进步。

AA-全知准确率(越高越好)衡量的是模型正确回答的问题数占总问题数的比例,不论模型是否选择作答。

AA-全知幻觉率(越低越好)衡量模型在本应拒绝时答错的频率,定义为所有非正确尝试中错误答案的比例。这一部分 Gemini 3 就差点意思了

更多详情:Artificial Analysis Evaluations

其他细节-API使用

1. 思考等级 (Thinking Level)

thinking_level 参数用于控制模型在生成回答之前进行内部推理过程的最大深度。

  • low:低延迟,低成本。适合简单指令、聊天。
  • high(默认):最大化推理深度。适合复杂任务。

注意:OpenAI 的 reasoning_effort 参数会自动映射到 thinking_level(中等映射到高)。

2. 温度设置 (Temperature)

对于 Gemini 3,强烈建议将温度保持为默认值 1.0。 Gemini 3 的推理能力已针对默认设置进行了优化。降低温度可能会导致循环或性能下降。

3. 媒体分辨率

Gemini 3 提供了更精细的媒体控制:

媒体类型

推荐设置

Token 上限

说明

图片

media_resolution_high

1120

最佳质量,适合分析细节。

PDF

media_resolution_medium

560

适合文档理解,性价比最高。

视频

media_resolution_low

70/帧

适合大多数动作识别。

4. API 定价与规格

模型 ID

上下文窗口

知识截止

定价 (输入/输出)

gemini-3-pro-preview

100 万 / 6.4 万

2025 年 1 月

12 (<200k)18 (>200k)

价格按每百万 token 计算。

免费使用的话,强烈推荐这个谷歌刚刚与 Gemini 3 Pro 一同推出的 Google Antigravity:下一代 Agent 开发平台,该平台目前处于免费预览阶段。它由 Gemini 3 Pro 提供支持,支持浏览器控制并提供工作证明。此外,该平台还集成了 Claude Sonnet 和 GPT-OSS。

👉 访问 antigravity.google/download 免费下载公共预览版(支持 MacOS、Windows 和 Linux
👉 访问 antigravity.google/download 免费下载公共预览版(支持 MacOS、Windows 和 Linux

👉 访问 antigravity.google/download 免费下载公共预览版(支持 MacOS、Windows 和 Linux

我看了一下 Price 页,被感动了:个人用户目前可以 0 元购,免费使用 Gemini 3 Pro 和 Claude Sonnet 4.5

Antigravity 有三个“面板”:

  1. 代理管理仪表板
  2. VS Code 风格的编辑器
  3. 深度浏览器集成(通过 Chrome 扩展)

整体与 Cusor、Winsurf 几乎没啥区别

总结:Google 这一次不仅在模型性能上重回巅峰,更通过 Antigravity 和全栈生态的整合,展现了可怕的统治力。Gemini 3 + Android + Workspace,这才是真正的 AI 原生体验。加上最佳图像生成 - Nano Banana 2、最佳视频生成 - Veo 3.1、最佳模型 - Gemini 3,谷歌真就要赢下 AI 竞赛了吗……

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 大力屠榜
  • 其他细节-API使用
    • 1. 思考等级 (Thinking Level)
    • 2. 温度设置 (Temperature)
    • 3. 媒体分辨率
    • 4. API 定价与规格
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档