首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爆被谷歌刷屏的Gemini演示视频是伪造的

据彭博社消息,Google的新Gemini AI模型昨天大规模亮相后,收到了褒贬不一的评价,但用户在发现Gemini最令人印象深刻的演示实际上几乎是伪造的后,可能会对该公司的技术和诚信度产生更少的信心。

一段名为“与Gemini互动:多模态AI体验”的视频在过去一天内获得了一百万次观看,原因不难理解。这个令人印象深刻的演示“突显了我们最喜欢的Gemini互动方式”,展示了多模态模型(即理解和混合语言与视觉理解)如何能够灵活响应各种输入。

首先,视频展示了从涂鸦到完成图画的演变,然后表示这只鸭子的颜色不真实,接着在看到一个玩具蓝色鸭子时表现出惊讶(“What the quack!”)。然后,它回应了有关那个玩具的各种语音查询,然后演示继续展示其他炫耀性功能,如在杯子转换游戏中追踪球,识别手影戏手势,重新排列行星素描等等。

此外,它的反应也非常迅速,尽管视频提醒说“延迟已经减少,Gemini的输出已经缩短。”所以,他们省略了一些犹豫和过长的回答,明白了。总之,这是在多模态理解领域的一次令人震惊的表现。当我亲自观看这个实际操作时,我对谷歌能够推出有竞争力的产品的怀疑程度有所减弱。

唯一的问题是:这个视频并非真实的。"我们通过捕捉录像镜头来创建演示,以测试Gemini在各种挑战上的能力。然后,我们使用录像中的静态图像帧以及文本提示来激发Gemini的反应。”(彭博社的Parmy Olsen是首位报道这一不一致情况的记者。)

因此,虽然Gemini在视频中可能表现出了类似谷歌展示的功能,但实际上它并没有以视频所暗示的方式实时执行这些操作,也许无法做到。事实上,视频实际上是一系列经过精心调整的文本提示与静态图像,明显是经过精选和缩短,以误导互动的实际情况。您可以在相关博客文章中看到一些实际的提示和回应,公平地说,尽管在视频描述中链接了这篇博客文章,但链接位置在“...more”之下。

一方面,Gemini似乎确实生成了视频中显示的回应。毕竟,谁想看到一些管理命令,比如告诉模型清除缓存呢?但观众对与模型的速度、准确性和基本交互方式被误导了。

例如,在视频的2:45处,一只手默默地做了一系列手势。Gemini迅速回应:“我知道你在做什么!你在玩剪刀石头布!”

然而,在该功能的文档中,首先提到了模型不会基于单独手势的观察来进行推理。它必须同时展示三种手势,并提示:“你认为我在做什么?提示:这是一个游戏。” 它回应说:“你在玩剪刀石头布。”

尽管它们看起来相似,但这两者并不感觉像是相同的互动。它们似乎是根本不同的互动方式,一个是直观的、无需言语的评估,可以即兴捕捉抽象的概念,另一个是经过精心设计和大量提示的互动,既展示了局限性,又展示了能力。Gemini实际上是后者,而不是前者。视频中展示的“互动”实际上并没有发生。

后来,桌面上放置了三张带有太阳、土星和地球涂鸦的便签纸。“这是正确的顺序吗?”Gemini回答不是,正确的顺序是太阳、地球、土星。但在实际的(再次强调,是书面的)提示中,问题是:“这是否是正确的顺序?请考虑与太阳的距离并解释你的推理。”

Gemini是否做对了?还是它答错了,需要一些帮助才能产生一个可以放入视频中的答案?它是否甚至识别出了这些行星,还是在那里也需要帮助?

在视频中,一个纸团在一个杯子下面被交换,这个模型似乎立刻而且几乎是本能地检测到并跟踪到了。但在文章中,不仅必须解释这个活动,还必须通过训练(尽管是快速并使用自然语言)来执行它。等等。

这些例子对你来说可能看似不重要。毕竟,对于一个多模态模型来说,如此快速地将手势识别为一种游戏实际上是非常令人印象深刻的!同样,判断一个未完成的图片是否是一只鸭子也是如此!尽管现在,由于博客文章没有解释鸭子序列,我对那个互动的真实性产生了怀疑。

现在,如果视频一开始就说:“这是我们的研究人员测试的互动的程式化表示”,没有人会大惊小怪,我们有点期望这样的视频是半真实的,半抱负的。

但是视频的名字叫做“与Gemini一同实践”,当他们说它展示了“我们最喜欢的互动”时,隐含的是我们看到的就是那些互动。但事实并非如此。有时它们更加复杂,有时它们完全不同,有时它们似乎根本没有发生过。我们甚至不知道它是哪个型号——人们现在可以使用的Gemini Pro,还是(更有可能的是)明年发布的Ultra版本?

我们是否应该假设谷歌只是在描述它的方式时给了我们一个示范视频?也许那么我们应该假设谷歌AI演示中的所有功能都被夸大了效果。我在标题中写道,这个视频是“伪造的”。起初,我不确定是否正当使用这种严厉的措辞。但这个视频简直不符合现实。它是伪造的。

谷歌表示这个视频“展示了Gemini的真实输出”,这是真的,但它还说“我们对演示进行了一些编辑(我们对此已经坦诚和透明),”这是不正确的。这不是一个真正的演示,而且视频显示的互动与用来通知它的互动非常不同。

更新:在本文发布后,谷歌DeepMind的研究副总裁Oriol Vinyals在社交媒体上发布了一篇文章,展示了“Gemini如何用于创建”视频的一些情况。他写道:“这个视频说明了使用Gemini构建的多模态用户体验可能是什么样子。我们制作它是为了激发开发者。”(我强调了这一点。)有趣的是,视频显示了一个在让Gemini回答行星问题之前可以执行的预提示序列(虽然它确实告诉Gemini它是行星的专家,并让它考虑所示物体的顺序)。

也许下周,当带有Gemini Pro的AI Studio可供实验时,我会吞下我的话。而Gemini也可能发展成一个真正能与OpenAI等竞争的强大AI平台。但谷歌在这里所做的是在毒化井。当他们声称他们的模型现在可以做某事时,任何人怎么能信任这家公司呢?他们已经落后于竞争对手。谷歌可能刚刚在另一只脚上开了枪。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OcpPJFb6y2aFUo5c4UeWYviQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券