谷歌宣布推出其“最通用、功能最强大”的新大型语言模型Gemini 1.0。
Gemini有三个版本:适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro和适用于手机等端侧设备的Gemini Nano。
发布会上,谷歌DeepMind首席执行官、Gemini团队代表德米斯·哈萨比斯(Demis Hassabis)正面谈及GPT-4与Gemini的对比,“我们对系统进行了非常彻底的分析,并进行了基准测试。谷歌运行了32个完善的基准测试来比较这两个模型,从广泛的整体测试(如多任务语言理解基准测试)到比较两个模型生成Python代码的能力。”哈萨比斯表示,“我认为我们在32项基准中的30项中大幅领先。”
果真如此吗?
威斯康辛大学教授Dimitris Papailiopoulos尝试将Gemini发布时展示的14道原题输入ChatGPT,看两个大模型到底谁更厉害。
我们一起来看一看:
第1题:验证一名学生解答的物理题
结果:GPT-4的答案和Gemini一样
第2题:inverse图像,GPT-4没那么厉害,但也没差那么多(毕竟付出了努力,但读图能力真不咋样)
第3题:辨别植物、关注细节
结果:打成平手
第4题:接下来的图像是什么?
结果:打成平手
第5题:几何推理
结果:GPT-4理解了,打成平手
第6题:高尔夫球和月球的关系
结果:打成平手
第7题:识别照片中的地点。
结果:GPT-4一开始拒绝提供相关信息,因为它认为这是在泄露隐私,但最终还是提供了。
第8题:解释笑话
结果:我认为GPT-4在这方面的能力更强些
第9题:中文里,如何称呼祖父母?
结果:打成平手
第10题:创建一个关于“负鼠”的谷歌搜索页面
结果:GPT-4没有添加图像,但它添加了一个“放入你最喜欢的负鼠图片”文件夹。我认为两者打成平手。
第11题:解方程式
结果:GPT-4太差劲了。0分!
第12题:多步骤推理
结果:打成平手,GPT-4使用了数据编译,我不知道这是否公平。
第13题:
翻转Matplotlib 图表,并在变更后增加两个函数。
结果:GPT-4不是百分百正确,而且它处理图像真的不行,我能说打成平手吗?
第14题:图表理解和推理
结果:打成平手
14道题中,ChatGPT答对12题。
总结:在图像相关的处理上,Gemini略胜一筹;其他方面,两者旗鼓相当。
领取专属 10元无门槛券
私享最新 技术干货