01
尝试回到领先地位
一度被动应战Open AI的谷歌,现在欲借多模态预训练大模型Gemini重回AI领导者地位。
今年4月,谷歌及其母公司Alphabet CEO桑达尔·皮查伊(Sundar Pichai)就曾透露已经将谷歌大脑、DeepMind两大AI团队合并,正在开发谷歌下一代大模型。8个月后,“Gemini 1.0”上线,并像新手机售卖一样配备了三个不同版本“Gemini Nano”“Gemini Pro”和“Gemini Ultra”,分别对应端侧设备、聊天机器人Bard和更加复杂的任务。
在谷歌口中,Gemini 1.0是谷歌目前能力最强的AI模型,有能力对标今年3月上线的GPT-4。在官方放出对比数据中,尚未上线的Gemini Ultra在综合能力、推理能力、数学能力、代码能力、图像理解的榜单中确实几乎全面超过GPT-4——不过分差都在个位数,并没有“碾压”的态势。
除了已经在用户端常见的文本功能,发布会现场的演示中谷歌重点展示了Gemini Ultra在挑战多模态推理任务方面的能力,然而,这个演示视频很快就成了引发质疑的导火索。
在演示视频中,Gemini Ultra对手写图文的理解快速、准确得令人惊讶。面对工作人员给出的三张太阳系星球的简笔画,并问“这是正确的摆放顺序吗?”,Gemini Ultra的回答不仅准确的识别了手绘内容,并结合天文学知识快速给出正确顺序该是如何。这种“文理兼修”的能力看起来也符合谷歌对其的评价:Gemini是第一个在MMLU(海量多任务语言理解)上超过人类专家的模型。MMLU是一套著名基准,包含一系列考试测试知识和推理。
02
“文理兼修”背后的提示词
不过从之后谷歌放出的完整解析文件中我们才知道,这种识别手写内容、解答抽象问题的能力并不如表面这么智能。
谷歌发布会一结束,AI科技企业Hugging Face的技术主管菲利普·施密德(Philipp Schmid)这样的业内大佬直指其夸大了Gemini的测评成绩,同时发布会现场的演示视频也被曝出不是实时演示而是提前录制并剪辑过。
随后,谷歌大方承认视频的确不是实时的,但这是为了现场效果,随后也给出了几份比较完整的解析文件以证明Gemini的确有能力。这是真的吗?以上面提到的简笔画识别为例,其实工作人员不仅仅只问了一个抽象问题,完整版的问句其实是一系列非常照顾Gemini理解方式的句子:“这是正确的摆放顺序吗?考虑它们与太阳的距离并解释你的推理。”
图片对象、知识点和回答要求都被工作人员完整提到,这就相当于考题旁边就写着解题思路,Gemini只是在理解问题含义的基础上作答而已。总的来说,Gemini的确具有空间推理和专业知识能力,但离不开提示词帮助,与其说它是史上最强AI模型,不如说它更像一个需要老师循循善诱的小孩。
此外,能与GPT-4抗衡的版本Gemini Ultra,仍在进行广泛的信任和安全检查,明年初才会向开发者和企业客户推出。这意味着短期内业界无法对其进行测试、复制类似的问题,更无法评估这一版本的真实能力,也导致这次发布演会更像是出自商业的考虑。
作为AI技术储备最深厚的科技公司,谷歌今年2月仓促发布对标ChatGPT的聊天机器人助手Bard,结果其不仅把错误的知识提供给用户,和ChatGPT的差距更令市场大跌眼镜;5月谷歌将底层模型迭代至PaLM-2,亦未能追上ChatGPT的能力。而在谷歌疲于追赶之时,Open AI已经在着手开发GPT-5大模型……这个追赶过程只会更加残酷。
编辑|张毅
审核|吴新
领取专属 10元无门槛券
私享最新 技术干货