击败 OpenAI-o3、Grok3、Claude 3.7、DeepSeek-R1
预览图
本周首次发布 DeepSeek v3–0324,现在谷歌推出了其新模型 Google Gemini 2.5 Pro。OpenAI 肯定会感受到压力。不要小看这次发布;
这是迄今为止发布的最佳 LLM。
什么是 Gemini 2.5 Pro?
Gemini 2.5 Pro(具体来说,初始发布为 Gemini 2.5 Pro Experimental)是谷歌 DeepMind 发布的 Gemini 2.5 代的第一个模型。它被描述为谷歌 DeepMind 最智能、最先进的 AI 模型,设计为一种“思维模型”,能够在回应之前进行内部推理,旨在解决日益复杂的问题。它在许多基准测试中处于领先地位。
Google Gemini 2.5 Pro 的关键特性是什么?
思维能力:在回应之前进行内部推理,从而提高性能和准确性。
增强推理:在需要高级推理的基准测试中表现出色,包括数学和科学(如 GPQA、AIME 2025)以及知识/推理(人类最后的考试)。
高级编码:显示出强大的编码能力,在创建 web 应用、代理代码应用、代码转换和编辑方面表现突出。在 SWE-Bench Verified 上得分很高。
原生多模态:基于 Gemini 理解和处理来自文本、音频、图像、视频和整个代码库的信息的能力。
长上下文窗口:配备 100 万个 token 的上下文窗口(计划很快扩展到 200 万),使其能够理解庞大的数据集。
基准测试
无
•推理与知识(人类最后的考试 — 无工具):此基准测试使用来自不同专家的问题测试深度推理和广泛知识,不允许 AI 使用外部工具。Gemini 2.5 Pro 以18.8%的最高分数,表明在无辅助推理和知识回忆方面的先进表现,相较于其他列出的模型。
•科学(GPQA 钻石):评估对物理、化学和生物学研究生级问题的理解和复杂推理。Gemini 2.5 Pro 在单次尝试中得分84.0%(pass@1),在此方法中在展示的模型中最高,展示了强大的科学推理能力。
•数学(AIME 2025):使用来自具有挑战性的美国邀请数学考试(2025 版)的问题来测试高级数学问题解决能力。Gemini 2.5 Pro 在单次尝试中以86.7%的成绩领先(pass@1),展示了在复杂数学问题上的优越表现,无需多次尝试。
•数学(AIME 2024):与上述类似,但使用 2024 AIME 竞赛的问题。Gemini 2.5 Pro 再次在单次尝试中得分最高(pass@1),为92.0%,进一步巩固其强大的数学推理能力。
•代码生成(LiveCodeBench v5):此基准测试评估根据给定问题编写功能性代码的能力。Gemini 2.5 Pro 得分70.4%(pass@1),显示出强大的代码生成能力,在这一特定指标上与顶级表现者(OpenAI o3-mini)竞争。
•代码编辑(Aider Polyglot):此测试衡量模型在不同编程语言中修改或调试现有代码的能力。Gemini 2.5 Pro 在整体/差异中取得74.0% / 68.6%的领先分数,表明其在代码编辑方面相较于同行表现出色。
•代理编码(SWE-bench verified):此测试模型处理复杂的多步骤软件工程任务的能力。Gemini 2.5 Pro 得分高达63.8%,展示了强大的代理能力,尽管在此基准测试中略逊于 Claude 3.7 Sonnet。
•事实性(SimpleQA):此测试测量回答相对简单的事实性问题的准确性。Gemini 2.5 Pro 得分52.9%,表现稳健,尽管低于 OpenAI GPT-4.5 的得分(62.5%)在此特定测试中。
•视觉推理(MMMU):此测试评估理解和推理结合视觉(图像)和文本输入的能力,涵盖多个学科。Gemini 2.5 Pro 在单次尝试中取得最高得分81.7%(pass@1),展示了在多模态理解方面的领先能力。
•图像理解(Vibe-Eval(Reka)):此测试专注于理解图像中的内容。Gemini 2.5 Pro 得分69.4%,在支持此多模态基准的模型中领先。
•长上下文(MRCR):此测试评估对非常长文档(128k 和 100 万个 token)的阅读理解和信息检索能力。Gemini 2.5 Pro 显著超越其他模型,得分91.5%(128k)和83.1%(1M),展示了处理和利用大量上下文的卓越能力。
•多语言表现(Global MMLU(Lite)):此测试测量在多种语言中对各种学科的理解和知识。Gemini 2.5 Pro 达到89.8%的最高分,表明其在多语言和多学科能力方面的优越性。
综合来看
Gemini 2.5 Pro 在各个方面展示了先进或高度竞争的性能,特别是在复杂推理(人类最后的考试)、单次尝试的数学和科学问题(AIME、GPQA)、代码编辑(Aider)、视觉推理(MMMU)、图像理解(Vibe-Eval)、处理极长上下文(MRCR)以及多语言任务(Global MMLU)方面表现突出。这使其成为目前可用的最强大和多才多艺的 AI 模型之一。
应该用于什么?
• 处理需要高级推理的复杂任务。
• 解决数学和科学问题。
• 高级编码任务,如创建视觉吸引力强的 web 应用、开发代理代码应用、代码转换和编辑。
• 分析和理解来自不同格式(文本、音频、图像、视频、代码)的大量信息。
• 开发者和企业的实验。
• 扩展生产使用(一旦价格和更高的速率限制可用)。
如何使用 Google Gemini 2.5 Pro?
目前:
在Google AI Studio中可供开发者和企业实验(如上视频所示)
在 Gemini 应用中为Gemini 高级用户提供(在桌面和移动设备的模型下拉菜单中可选择)。
结论
因此,Gemini 2.5 Pro 显然是智能 AI 的一个重大进步。它不仅仅是获取答案,而是思考这些答案,这在处理复杂问题时确实有助于提高准确性。在复杂推理、创造性编码、理解图像甚至消化庞大文档方面,我们看到它的出色表现。现在开发者和 Gemini 高级用户可以尝试它。
领取专属 10元无门槛券
私享最新 技术干货