首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

解锁 Google Gemini 2.5 Pro:将复杂问题解决的 AI 推理和性能提升 50%

击败 OpenAI-o3、Grok3、Claude 3.7、DeepSeek-R1

预览图

本周首次发布 DeepSeek v3–0324,现在谷歌推出了其新模型 Google Gemini 2.5 Pro。OpenAI 肯定会感受到压力。不要小看这次发布;

这是迄今为止发布的最佳 LLM。

什么是 Gemini 2.5 Pro?

Gemini 2.5 Pro(具体来说,初始发布为 Gemini 2.5 Pro Experimental)是谷歌 DeepMind 发布的 Gemini 2.5 代的第一个模型。它被描述为谷歌 DeepMind 最智能、最先进的 AI 模型,设计为一种“思维模型”,能够在回应之前进行内部推理,旨在解决日益复杂的问题。它在许多基准测试中处于领先地位。

Google Gemini 2.5 Pro 的关键特性是什么?

思维能力:在回应之前进行内部推理,从而提高性能和准确性。

增强推理:在需要高级推理的基准测试中表现出色,包括数学和科学(如 GPQA、AIME 2025)以及知识/推理(人类最后的考试)。

高级编码:显示出强大的编码能力,在创建 web 应用、代理代码应用、代码转换和编辑方面表现突出。在 SWE-Bench Verified 上得分很高。

原生多模态:基于 Gemini 理解和处理来自文本、音频、图像、视频和整个代码库的信息的能力。

长上下文窗口:配备 100 万个 token 的上下文窗口(计划很快扩展到 200 万),使其能够理解庞大的数据集。

基准测试

推理与知识(人类最后的考试 — 无工具):此基准测试使用来自不同专家的问题测试深度推理和广泛知识,不允许 AI 使用外部工具。Gemini 2.5 Pro 以18.8%的最高分数,表明在无辅助推理和知识回忆方面的先进表现,相较于其他列出的模型。

科学(GPQA 钻石):评估对物理、化学和生物学研究生级问题的理解和复杂推理。Gemini 2.5 Pro 在单次尝试中得分84.0%(pass@1),在此方法中在展示的模型中最高,展示了强大的科学推理能力。

数学(AIME 2025):使用来自具有挑战性的美国邀请数学考试(2025 版)的问题来测试高级数学问题解决能力。Gemini 2.5 Pro 在单次尝试中以86.7%的成绩领先(pass@1),展示了在复杂数学问题上的优越表现,无需多次尝试。

数学(AIME 2024):与上述类似,但使用 2024 AIME 竞赛的问题。Gemini 2.5 Pro 再次在单次尝试中得分最高(pass@1),为92.0%,进一步巩固其强大的数学推理能力。

代码生成(LiveCodeBench v5):此基准测试评估根据给定问题编写功能性代码的能力。Gemini 2.5 Pro 得分70.4%(pass@1),显示出强大的代码生成能力,在这一特定指标上与顶级表现者(OpenAI o3-mini)竞争。

代码编辑(Aider Polyglot):此测试衡量模型在不同编程语言中修改或调试现有代码的能力。Gemini 2.5 Pro 在整体/差异中取得74.0% / 68.6%的领先分数,表明其在代码编辑方面相较于同行表现出色。

代理编码(SWE-bench verified):此测试模型处理复杂的多步骤软件工程任务的能力。Gemini 2.5 Pro 得分高达63.8%,展示了强大的代理能力,尽管在此基准测试中略逊于 Claude 3.7 Sonnet。

事实性(SimpleQA):此测试测量回答相对简单的事实性问题的准确性。Gemini 2.5 Pro 得分52.9%,表现稳健,尽管低于 OpenAI GPT-4.5 的得分(62.5%)在此特定测试中。

视觉推理(MMMU):此测试评估理解和推理结合视觉(图像)和文本输入的能力,涵盖多个学科。Gemini 2.5 Pro 在单次尝试中取得最高得分81.7%(pass@1),展示了在多模态理解方面的领先能力。

图像理解(Vibe-Eval(Reka)):此测试专注于理解图像中的内容。Gemini 2.5 Pro 得分69.4%,在支持此多模态基准的模型中领先。

长上下文(MRCR):此测试评估对非常长文档(128k 和 100 万个 token)的阅读理解和信息检索能力。Gemini 2.5 Pro 显著超越其他模型,得分91.5%(128k)和83.1%(1M),展示了处理和利用大量上下文的卓越能力。

多语言表现(Global MMLU(Lite)):此测试测量在多种语言中对各种学科的理解和知识。Gemini 2.5 Pro 达到89.8%的最高分,表明其在多语言和多学科能力方面的优越性。

综合来看

Gemini 2.5 Pro 在各个方面展示了先进或高度竞争的性能,特别是在复杂推理(人类最后的考试)、单次尝试的数学和科学问题(AIME、GPQA)、代码编辑(Aider)、视觉推理(MMMU)、图像理解(Vibe-Eval)、处理极长上下文(MRCR)以及多语言任务(Global MMLU)方面表现突出。这使其成为目前可用的最强大和多才多艺的 AI 模型之一。

应该用于什么?

• 处理需要高级推理的复杂任务。

• 解决数学和科学问题。

• 高级编码任务,如创建视觉吸引力强的 web 应用、开发代理代码应用、代码转换和编辑。

• 分析和理解来自不同格式(文本、音频、图像、视频、代码)的大量信息。

• 开发者和企业的实验。

• 扩展生产使用(一旦价格和更高的速率限制可用)。

如何使用 Google Gemini 2.5 Pro?

目前:

Google AI Studio中可供开发者和企业实验(如上视频所示)

在 Gemini 应用中为Gemini 高级用户提供(在桌面和移动设备的模型下拉菜单中可选择)。

结论

因此,Gemini 2.5 Pro 显然是智能 AI 的一个重大进步。它不仅仅是获取答案,而是思考这些答案,这在处理复杂问题时确实有助于提高准确性。在复杂推理、创造性编码、理解图像甚至消化庞大文档方面,我们看到它的出色表现。现在开发者和 Gemini 高级用户可以尝试它。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OhEch_ta2eMq8dbUo2Pl9jqg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券