前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”?一手实测“看看实力”

【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”?一手实测“看看实力”

原创
作者头像
AGI-Eval评测社区
发布2025-04-02 10:36:56
发布2025-04-02 10:36:56
3730
举报

北京时间 26 号晚,除了 GPT-4o 在图像生成方面放出大招,Google 也不甘示弱的发布了新模型 Gemini 2.5 pro,并且在各大榜单实现了“屠榜”,在多模态交互,数学科学,编程方面实现“遥遥领先”,跟 Openai 打了一次漂亮的“双响炮”。

Image
Image

目录:

1. Gemini 2.5 pro 实现屠榜?

2. Google 官方实测案例

3. 团队一手实测

    3.1 多模态能力测试

3.1.1 微表情测试

       3.1.2 三门问题测试

    3.2 编程,科学与数学能力测试

       3.2.1 编程能力测试

3.2.2 科学能力测试

3.2.3 数学能力测试

4. 总结和期待

01. Gemini 2.5 pro 实现屠榜?

Google 官方在北京时间 26 日晚在 X 上发布了 Gemini 2.5 Pro 发布的公告:

Image
Image

Google 官方发布的信息中,宣称这次 Gemini 2.5 pro 在各类榜单上实现了“屠榜”,Gemini 2.5 Pro 在对话能力榜单 Arena leaderboard 之中实现历史以来的得分最大飞跃,以超过 Grox-3 模型 40 分的成绩目前位居第一名。

Image
Image

详细的对比数据可见上表

Gemini 2.5 Pro Experimental 在许多类别中都取得了排名第一的成绩,特别是在数学、科学、创意写作、指令遵循、较长查询表现突出。

Image
Image
Image
Image

详细的对比数据可见上表

Gemini 2.5 Pro 在 Web 开发领域也表现不俗。在 WebDev Arena 上取得了第二的好成绩。它是第一款与 Claude 3.5 Sonne 相似,比上一代 Gemini 有了巨大的飞跃。

Image
Image

Gemini在WebDev Arena中的排名情况

那么,这次 Gemini 2.5 pro 在实践中表现如何呢?

02. 官方实测

编程与视觉理解大师?

对此,Gemini 官方给出了几个实际的案例:

首先,看看 Gemini 对任务的理解与推理能力如何?

如果让 Gemini 2.5 pro 使用 Plotly Express 创建一个动画气泡图,图上能够显示每个大陆的经济和健康指标如何随时间演变,它会表现如何?

prompt如下:

Image
Image

由此,Gemini 根据指令进行推理后生成了对应的代码:

Image
Image

运行之后,构建出了对应的动画气泡图:图像基本完成了prompt中的任务,色彩的搭配与整体效果的呈现相对客观。

,时长00:14

除此之外,Gemini 在游戏理解上也有实例的体现:

让它制作一个吸引人的无尽跑酷游戏。屏幕上要有的关键指令的操作说明,p5js 场景,不要 HTML,并且是像素化的恐龙和有趣的背景。prompt 如下:

Image
Image

之后,Gemini 2.5 pro 完成了这个任务:

,时长00:04

并且,Google 同样突出了 2.5 在编程与视觉理解的优势:让 Gemini 2.5 pro 去生成一个旋转的六边体,同时有 30 只色彩斑斓的群体在其中游动,像超新星星云一样。

prompt如下:

Image
Image

进而有了这个魔幻的旋转炫彩六边形:

,时长00:04

在 Gemini 2.5 pro 给出的具体实例之中,可以看出 Gemini 2.5 pro 在推理能力与代码能力以及视觉层面上有不错的表现与理解。

目前在 Gemini 2.5 pro 已经在 Google AI Studio 上与 Gemini 的官网/app中直接免费体验!(App与网页中需要是 Gemini advanced 用户)

具体体验链接放在文末,感兴趣的朋友可以自己上手体验下!

03. 一手实测

Gemini 2.5 pro 真这么强?

看了这么多官方的实测,AGI-Eval 大模型评测团队也忍不住测一测看看 Gemini 2.5 pro 的各项能力表现如何?

Image
Image

根据 Google 官方对于 Gemini 2.5 pro 性能的关键信息,此次实测将从:多模态推理、编程、数学三个角度去验证下 Gemini 2.5 pro 的能力。

3.1多模态推理能力测试

3.1.1微表情测试

首先,选取了在人类之中也同样热门的“微表情测试”,以此来检验新旧版模型对于图像的识别理解与推理的能力。

Image
Image

将图片分别发给 Gemini 2.0 Flash 与 Gemini 2.5 pro,并且 prompt 都只有“做出判断”,可以看到 Gemini 2.0 Flash 对于三张图的判断分别是:

图一:期待   图二:开心   图三:愤怒

Image
Image

在图一之中,Gemini 2.0 Flash 对于表情的判断是“期待”,它认为这个图片是“眼睛睁的大大的”,并且是不符合“悲伤的眼睛通常有下垂的眼睑和下垂的眼角。

同样,我们给了相同的图片与 prompt 给 Gemini 2.5 pro,它对于这个图片的判断是:

图一:伤心   图二:开心   图三:愤怒

Image
Image

最大的区别在于对于图一的判断:

  • Gemini 2.0 Flash 虽然知道“下垂的眼角代表悲伤”,但是还是因为“眼睛睁开的大”来判断为“期待”
  • Gemini 2.5 pro 根据眉毛的形态与“眼睛亮不亮”的标准来判断出了图一更可能是“伤心”

实际测试来看,Gemini 2.5 pro 对于图像识别方向有一点的提升使得更加准确, Gemini 2.5 Pro 的推理能力更加的强大与全面。

Gemini 2.5 Pro 通过了第一关“微表情测试”并且“击败”了它的上一代 Gemini 2.0。同时也挑起了团队评测人员继续探究 Gemini 2.5 Pro的兴趣,接下我们继续探寻 Gemini 2.5 Pro 对于图像的理解能力到底有多强?

3.1.2 三门问题测试

Image
Image

这是一个经典的蒙提霍尔问题,但是我们觉得单单考这个还不够,去掉了其中的文字介绍部分

Image
Image

直接把这个【图片+“解决这个问题”】的 prompt 给了大模型。首先给了 GPT-4o mini

Image
Image

它似乎沉浸在了分析这个图片的编号与画风中,反观 Gemini 2.5 Pro

Image
Image
Image
Image

它准确识别出了这是蒙提霍尔问题,并且给出了相对合理的解释,可以说是非常的“有想法”了,它对于图片理解后的推理能力也是不错的。

3.2编程,科学与数学能力测试

3.2.1 编程能力测试

首先考察 Gemini 2.5 Pro 的编程能力,让它去设计一个经典的吃豆人游戏,我们给出了任务与具体的要求如下:

Image
Image

70S 后,Gemini 2.5 Pro 给出了完整的HTML的代码,运行后基本满足了要求,可玩性稳定性视觉感兼顾。对于分数的计算也非常合理,碰到幽灵时的结算分数也正确,除了转向的时候嘴的方向不会动,细节处理可能存在一些忽视。

,时长00:15

3.2.2 科学能力测试

让 Gemini 2.5 pro 创建一个交互式可视化的太阳系行星轨道模拟,使用 Python 和 Matplotlib 实现动态模型,展示行星围绕太阳的运行。要求包括计算行星位置的开普勒轨道方程、显示真实比例的太阳和四颗行星,并生成动画效果,由此来区分行星颜色并添加时间指示器。

Image
Image

具体的prompt如上

再经过仅仅 50s 的推理时间,Gemini 2.5 pro 按照以下顺序生成了对应的代码:

Image
Image

最后运行后的效果如下:

,时长00:08

在编码上,Gemini 2.5 pro 确实生成了完整的基本符合规律的动画并且能够展示(期间没有任何二次要求),画面的流畅度视觉效果也不错。

对于各个行星间的运行速度计算与实际轨迹大小基本符合规律,但是忽略了行星轨道大多为椭圆形的问题,并未完美的球形。

3.2.3 数学能力测试

这里找到了一篇中科院博士研究生的代数考题

Image
Image

仅仅用了 30S,Gemini 2.5 Pro 就给出了答案

Image
Image

看来基础计算难不倒它,数学脑筋急转弯总可以吧!于是问了一个反直觉的数学题

Image
Image

可惜只用了 10S 就被 Gemini2.5 Pro 识破了...

Image
Image

数学对于 Gemini 2.5 Pro 真的是“基础题”了,也没有难倒它!

04. 总结及期待

Gemini 2.5 Pro 相比 Gemini 2.0 Flash 版本确实在多模态能力上有了一定的提升,多模态的图片理解分析能力推理能力实测中会比 Gemini 2.0 Flash 的识别效果更好,在编程和逻辑方面的实测结果也比较符合预期,只是在运行速度和计算中还是可以看到一些瑕疵。

当然,以上内容只是小小的测试,让大家对此次发布的 Gemini 2.5 pro 有一些基础认识和能力感受,后续我们将推出更全更完整的评测报告,考察 Gemini 2.5 多维度的能力提升情况。

最后,具体能力如何大家可以自己动起手来测评,体验一下Gemini2.5pro的魅力

最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来使用干货,别忘了关注我们!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 02. 官方实测
  • 编程与视觉理解大师?
  • 03. 一手实测
  • Gemini 2.5 pro 真这么强?
  • 04. 总结及期待
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档