首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌Gemini和ChatGPT谁更厉害

谷歌宣布推出其“最通用、功能最强大”的新大型语言模型Gemini 1.0。

Gemini有三个版本:适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro和适用于手机等端侧设备的Gemini Nano。

发布会上,谷歌DeepMind首席执行官、Gemini团队代表德米斯·哈萨比斯(Demis Hassabis)正面谈及GPT-4与Gemini的对比,“我们对系统进行了非常彻底的分析,并进行了基准测试。谷歌运行了32个完善的基准测试来比较这两个模型,从广泛的整体测试(如多任务语言理解基准测试)到比较两个模型生成Python代码的能力。”哈萨比斯表示,“我认为我们在32项基准中的30项中大幅领先。”

果真如此吗?

威斯康辛大学教授Dimitris Papailiopoulos尝试将Gemini发布时展示的14道原题输入ChatGPT,看两个大模型到底谁更厉害。

我们一起来看一看:

第1题:验证一名学生解答的物理题

结果:GPT-4的答案和Gemini一样

第2题:inverse图像,GPT-4没那么厉害,但也没差那么多(毕竟付出了努力,但读图能力真不咋样)

第3题:辨别植物、关注细节

结果:打成平手

第4题:接下来的图像是什么?

结果:打成平手

第5题:几何推理

结果:GPT-4理解了,打成平手

第6题:高尔夫球和月球的关系

结果:打成平手

第7题:识别照片中的地点。

结果:GPT-4一开始拒绝提供相关信息,因为它认为这是在泄露隐私,但最终还是提供了。

第8题:解释笑话

结果:我认为GPT-4在这方面的能力更强些

第9题:中文里,如何称呼祖父母?

结果:打成平手

第10题:创建一个关于“负鼠”的谷歌搜索页面

结果:GPT-4没有添加图像,但它添加了一个“放入你最喜欢的负鼠图片”文件夹。我认为两者打成平手。

第11题:解方程式

结果:GPT-4太差劲了。0分!

第12题:多步骤推理

结果:打成平手,GPT-4使用了数据编译,我不知道这是否公平。

第13题:

翻转Matplotlib 图表,并在变更后增加两个函数。

结果:GPT-4不是百分百正确,而且它处理图像真的不行,我能说打成平手吗?

第14题:图表理解和推理

结果:打成平手

14道题中,ChatGPT答对12题。

总结:在图像相关的处理上,Gemini略胜一筹;其他方面,两者旗鼓相当。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OiahUulP6bGxP9hWIdQh5GLQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券