首页
学习
活动
专区
圈层
工具
发布

Google 发布了 Gemini 3.5 Flash,并将其设为默认模型

在 5 月 19 日举行的 Google I/O 2026 大会上,Google 正式公布了 Gemini 3.5 系列。作为首发阵容,Gemini 3.5 Flash 被 Google DeepMind 视为自家研发中最强的智能体与编程模型。在 Terminal-Bench 2.1、GDPval-AA 和 MCP Atlas 这三项测试中,新模型的表现均优于 2026 年 2 月推出的 Gemini 3.1 Pro。

目前,Gemini 3.5 Flash 已被设定为 Gemini 应用和 Google 搜索中“AI 模式”的默认模型。

关键基准测试表现

本次发布的核心看点在于,新系列 Flash 模型在三个关键指标上超越了上一代的 Pro 旗舰模型:

智能体编程基准测试 (Terminal-Bench 2.1): Gemini 3.5 Flash 得分为 76.2%,而 Gemini 3.1 Pro 为 70.3%,Gemini 3 Flash 为 58.0%。

MCP Atlas(评估通过 MCP 协议进行的多步骤工作流): 新模型得分 83.6%,对比 3.1 Pro 的 78.2% 和 3 Flash 的 62.0%。

GDPval-AA(通过 Elo 系统评估具有经济价值的智力任务完成情况): Gemini 3.5 Flash 获得 1656 分,远超 3.1 Pro 的 1314 分和 3 Flash 的 1204 分。

与竞品的对比

在 Google DeepMind 的对比表中,Gemini 3.5 Flash 与 OpenAI 的 GPT-5.5 以及 Anthropic 的 Claude Sonnet 4.6、Claude Opus 4.7 进行了较量,部分领域竞品仍占优势:

SWE-Bench Pro (Public): Claude Opus 4.7 得分 64.3%,高于 Gemini 3.5 Flash 的 55.1%。

学术测试 Humanity's Last Exam: Anthropic 的同款模型以 46.9% 对 40.2% 领先。

抽象推理测试 ARC-AGI-2: GPT-5.5 以 84.6% 领先于 72.1%。

长上下文任务 MRCR v2 (128k tokens): GPT-5.5 优势更明显,94.8% 对 77.3%。

Gemini 3.5 Flash 的优势场景

MCP Atlas: 新模型得分 83.6%(Claude Opus 4.7 为 79.1%,GPT-5.5 为 75.3%)。

Toolathlon(衡量真实场景下的工具使用): 56.5%(GPT-5.5 为 55.6%)。

金融分析基准测试 Finance Agent v2: 57.9%(Claude Opus 4.7 为 51.5%,GPT-5.5 为 51.8%)。

无工具辅助的多模态理解 MMMU-Pro: 83.6%(GPT-5.5 为 81.2%,Claude Opus 4.7 为 75.2%)。

(注:MCP 即模型上下文协议,是 Anthropic 于 2024 年 11 月发布的开放协议,用于将语言模型连接到外部工具和数据源,目前得到 Google、OpenAI 等大厂的广泛支持。)

Google 宣称,在每秒输出 token 的数量上,Gemini 3.5 Flash 比同类竞品快四倍,而成本不到对方的一半。这种速度与质量的结合,使其在长周期任务(如软件开发维护、财务文档处理、多智能体协调)中极具优势。此外,该模型还能生成更复杂的交互式网页界面和图形。

Google 表示,Gemini 3.5 系列整体减少了有害内容的输出,同时也降低了误拒安全请求的概率。这得益于重新设计的安全训练流程,以及引入了可解释性工具,让开发者能在模型输出前检查其内部推理链条。

获取渠道

Gemini 3.5 Flash 已于 2026 年 5 月 19 日在全球范围内推出。除了作为 Gemini 应用和搜索 AI 模式的默认模型外,开发者可通过 Google AI Studio、Android Studio 中的 Gemini API 以及 Google Antigravity 智能体开发环境进行访问。企业用户则可通过 Gemini Enterprise 和 Gemini Enterprise Agent Platform 平台使用。

此外,基于该模型打造的个人 AI 智能体 Gemini Spark 可在 Google Cloud 的独立虚拟机上全天候执行用户任务。该功能已于发布当天向受信任的测试人员开放,面向美国 Google AI Ultra 订阅用户的扩展测试版计划于下周推出。

Google 确认正在同步开发 Gemini 3.5 Pro。目前内部员工已在日常工作中使用该 Pro 版本,预计将于下个月正式向公众发布。

此次发布向市场释放了一个强烈信号:从 2026 年 2 月 Gemini 3.1 Pro 发布,到同系列的 Flash 模型在性能上实现反超,仅用了三个月时间。对于使用 Gemini API 和 Google Antigravity 的开发者而言,这意味着能以更低的价格获得性能更强的模型;对于普通用户,则意味着应用和 AI 搜索模式中的默认模型将自动升级。

不过,与 Claude Opus 4.7 和 GPT-5.5 的对比显示,Gemini 3.5 Flash 的优势主要集中在智能体场景和工具调用上,而在学术推理和长上下文任务中,竞品依然保持领先。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OBHlI2p4iYtXw0YQZ4dEZSgQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券