北京时间 26 号晚,除了 GPT-4o 在图像生成方面放出大招,Google 也不甘示弱的发布了新模型 Gemini 2.5 pro,并且在各大榜单实现了“屠榜”,在多模态交互,数学科学,编程方面实现“遥遥领先”,跟 Openai 打了一次漂亮的“双响炮”。
目录:
1. Gemini 2.5 pro 实现屠榜?
2. Google 官方实测案例
3. 团队一手实测
3.1 多模态能力测试
3.1.1 微表情测试
3.1.2 三门问题测试
3.2 编程,科学与数学能力测试
3.2.1 编程能力测试
3.2.2 科学能力测试
3.2.3 数学能力测试
4. 总结和期待
01. Gemini 2.5 pro 实现屠榜?
Google 官方在北京时间 26 日晚在 X 上发布了 Gemini 2.5 Pro 发布的公告:
Google 官方发布的信息中,宣称这次 Gemini 2.5 pro 在各类榜单上实现了“屠榜”,Gemini 2.5 Pro 在对话能力榜单 Arena leaderboard 之中实现历史以来的得分最大飞跃,以超过 Grox-3 模型 40 分的成绩目前位居第一名。
详细的对比数据可见上表
Gemini 2.5 Pro Experimental 在许多类别中都取得了排名第一的成绩,特别是在数学、科学、创意写作、指令遵循、较长查询表现突出。
详细的对比数据可见上表
Gemini 2.5 Pro 在 Web 开发领域也表现不俗。在 WebDev Arena 上取得了第二的好成绩。它是第一款与 Claude 3.5 Sonne 相似,比上一代 Gemini 有了巨大的飞跃。
Gemini在WebDev Arena中的排名情况
那么,这次 Gemini 2.5 pro 在实践中表现如何呢?
对此,Gemini 官方给出了几个实际的案例:
首先,看看 Gemini 对任务的理解与推理能力如何?
如果让 Gemini 2.5 pro 使用 Plotly Express 创建一个动画气泡图,图上能够显示每个大陆的经济和健康指标如何随时间演变,它会表现如何?
prompt如下:
由此,Gemini 根据指令进行推理后生成了对应的代码:
运行之后,构建出了对应的动画气泡图:图像基本完成了prompt中的任务,色彩的搭配与整体效果的呈现相对客观。
,时长00:14
除此之外,Gemini 在游戏理解上也有实例的体现:
让它制作一个吸引人的无尽跑酷游戏。屏幕上要有的关键指令的操作说明,p5js 场景,不要 HTML,并且是像素化的恐龙和有趣的背景。prompt 如下:
之后,Gemini 2.5 pro 完成了这个任务:
,时长00:04
并且,Google 同样突出了 2.5 在编程与视觉理解的优势:让 Gemini 2.5 pro 去生成一个旋转的六边体,同时有 30 只色彩斑斓的群体在其中游动,像超新星星云一样。
prompt如下:
进而有了这个魔幻的旋转炫彩六边形:
,时长00:04
在 Gemini 2.5 pro 给出的具体实例之中,可以看出 Gemini 2.5 pro 在推理能力与代码能力以及视觉层面上有不错的表现与理解。
目前在 Gemini 2.5 pro 已经在 Google AI Studio 上与 Gemini 的官网/app中直接免费体验!(App与网页中需要是 Gemini advanced 用户)
具体体验链接放在文末,感兴趣的朋友可以自己上手体验下!
看了这么多官方的实测,AGI-Eval 大模型评测团队也忍不住测一测看看 Gemini 2.5 pro 的各项能力表现如何?
根据 Google 官方对于 Gemini 2.5 pro 性能的关键信息,此次实测将从:多模态推理、编程、数学三个角度去验证下 Gemini 2.5 pro 的能力。
3.1多模态推理能力测试
3.1.1微表情测试
首先,选取了在人类之中也同样热门的“微表情测试”,以此来检验新旧版模型对于图像的识别理解与推理的能力。
将图片分别发给 Gemini 2.0 Flash 与 Gemini 2.5 pro,并且 prompt 都只有“做出判断”,可以看到 Gemini 2.0 Flash 对于三张图的判断分别是:
图一:期待 图二:开心 图三:愤怒
在图一之中,Gemini 2.0 Flash 对于表情的判断是“期待”,它认为这个图片是“眼睛睁的大大的”,并且是不符合“悲伤的眼睛通常有下垂的眼睑和下垂的眼角。
同样,我们给了相同的图片与 prompt 给 Gemini 2.5 pro,它对于这个图片的判断是:
图一:伤心 图二:开心 图三:愤怒
最大的区别在于对于图一的判断:
实际测试来看,Gemini 2.5 pro 对于图像识别方向有一点的提升使得更加准确, Gemini 2.5 Pro 的推理能力更加的强大与全面。
Gemini 2.5 Pro 通过了第一关“微表情测试”并且“击败”了它的上一代 Gemini 2.0。同时也挑起了团队评测人员继续探究 Gemini 2.5 Pro的兴趣,接下我们继续探寻 Gemini 2.5 Pro 对于图像的理解能力到底有多强?
3.1.2 三门问题测试
这是一个经典的蒙提霍尔问题,但是我们觉得单单考这个还不够,去掉了其中的文字介绍部分
直接把这个【图片+“解决这个问题”】的 prompt 给了大模型。首先给了 GPT-4o mini
它似乎沉浸在了分析这个图片的编号与画风中,反观 Gemini 2.5 Pro
它准确识别出了这是蒙提霍尔问题,并且给出了相对合理的解释,可以说是非常的“有想法”了,它对于图片理解后的推理能力也是不错的。
3.2编程,科学与数学能力测试
3.2.1 编程能力测试
首先考察 Gemini 2.5 Pro 的编程能力,让它去设计一个经典的吃豆人游戏,我们给出了任务与具体的要求如下:
70S 后,Gemini 2.5 Pro 给出了完整的HTML的代码,运行后基本满足了要求,可玩性、稳定性和视觉感兼顾。对于分数的计算也非常合理,碰到幽灵时的结算分数也正确,除了转向的时候嘴的方向不会动,细节处理可能存在一些忽视。
,时长00:15
3.2.2 科学能力测试
让 Gemini 2.5 pro 创建一个交互式可视化的太阳系行星轨道模拟,使用 Python 和 Matplotlib 实现动态模型,展示行星围绕太阳的运行。要求包括计算行星位置的开普勒轨道方程、显示真实比例的太阳和四颗行星,并生成动画效果,由此来区分行星颜色并添加时间指示器。
具体的prompt如上
再经过仅仅 50s 的推理时间,Gemini 2.5 pro 按照以下顺序生成了对应的代码:
最后运行后的效果如下:
,时长00:08
在编码上,Gemini 2.5 pro 确实生成了完整的基本符合规律的动画并且能够展示(期间没有任何二次要求),画面的流畅度和视觉效果也不错。
对于各个行星间的运行速度计算与实际轨迹大小基本符合规律,但是忽略了行星轨道大多为椭圆形的问题,并未完美的球形。
3.2.3 数学能力测试
这里找到了一篇中科院博士研究生的代数考题
仅仅用了 30S,Gemini 2.5 Pro 就给出了答案
看来基础计算难不倒它,数学脑筋急转弯总可以吧!于是问了一个反直觉的数学题
可惜只用了 10S 就被 Gemini2.5 Pro 识破了...
数学对于 Gemini 2.5 Pro 真的是“基础题”了,也没有难倒它!
Gemini 2.5 Pro 相比 Gemini 2.0 Flash 版本确实在多模态能力上有了一定的提升,多模态的图片理解分析能力与推理能力实测中会比 Gemini 2.0 Flash 的识别效果更好,在编程和逻辑方面的实测结果也比较符合预期,只是在运行速度和计算中还是可以看到一些瑕疵。
当然,以上内容只是小小的测试,让大家对此次发布的 Gemini 2.5 pro 有一些基础认识和能力感受,后续我们将推出更全更完整的评测报告,考察 Gemini 2.5 多维度的能力提升情况。
最后,具体能力如何大家可以自己动起手来测评,体验一下Gemini2.5pro的魅力
最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来使用干货,别忘了关注我们!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。