首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌“世界模型”Genie有多厉害?一张草图就能变成2D游戏!

在OpenAI推出世界模型AI:Sora;Meta推出世界模型:V-JEPA!谷歌也不甘示弱(也有人说赶鸭子上架)推出了它的世界模型:Genie!

你是否曾经想过,你能够用一张草图或一段文字,就能创造出一个可以互动和玩耍的虚拟世界?这听起来像是科幻电影里的场景!但谷歌声称他们的Genie模型,可以做到!

Genie模型是什么?

Genie模型是一个由纯视频数据训练的生成式人工智能模型,它可以根据单个图像提示来生成“交互式可玩环境”

Genie 的核心是一个 基础世界模型,它有 110 亿个参数,可以视为一个强大的大脑,它可以理解和创造各种各样的 2D 世界。

Genie 的大脑是通过观看超过 20 万小时的互联网视频来训练的,这些视频都是一些 2D 平台游戏的画面。通过这样的无监督学习,Genie 学会了角色的运动、控制和动作,以及世界的物理规律和逻辑。

看下效果,首先输入下图

会生成下面的动画效果,谷歌生成是按照现实物理规律生成的!

下面这个例子效果更好,看起来符合现实情况

Genie如何做到的?

它由三个部分组成,一个潜在动作模型,用于推断每对帧之间的潜在动作;一个视频标记器,用于将原始视频帧转换为离散令牌;一个动态模型,用于在给定潜在动作和过去的帧令牌的情况下,预测视频的下一帧。

Genie模型拥有110亿个参数,可以说是一个基础世界模型。它通过了互联网上超过20万小时的2D游戏视频训练,目前还是一个研究预览版。它是在无监督和无标签视频的情况下进行训练的,能够学习各种角色的动作、控制和行动,做到一致性。

Genie模型能做什么?

虽然宣称,只要提供一段文本、一张草图,甚至是一个想法,Genie就会完成剩下的工作,生成一款2D平台类游戏。但是目前只是给了一些demo,还没实际体验。而且目前Genie有两个问题,一个是太模糊,帧率低!另一个是时间短,只有3s。对比隔壁的Sora一分钟视频,貌似差的有点多,距离生成游戏?也差点有点远!

与Sora呈现出的高清晰度和高真实度相比,Genie似乎不那么在意画面真实性,而是将重点放在潜在动作预测上。虽然这距离像《星际迷航》中那样的真正全息甲板还有一段路要走,但它确实表明,有一天走进一个房间,用几句话创造一场完全互动的冒险是可能的。

Genie模型有什么意义?

作为一个研究项目,Genie模型的上市日期尚未确定,以及是否会成为真正的产品还不清楚。但重要的是其用于内容生成的潜在技术和新方法,包括通向开放世界的未标记学习。

Genie模型带来的另一个重大突破是对真实世界物理的更深入理解,这可以用于训练机器人更有效地导航环境,或完成训练中没有经历过的任务。谷歌称,Genie开启了图/文生成交互世界的时代,还将成为实现通用AI代理的催化剂。

Genie模型的出现,也再次证明了生成式模型在通往AGI的路上将要发挥的重要作用。生成式模型可以帮助人们以更小的代价去模拟这个世界,从而允许AI算法在模拟世界中学习,最终走向AGI。

如果要充分理解这一点,就要接受这样的观点:AI算法的智能程度,完全取决于它的训练环境的真实性和复杂性。目前,NLP领域已经创造出了GPT这样强大的AI,就是因为NLP所需的环境比较简单,可以通过对话任务模拟出来。

而CV领域,所需的环境要复杂好几个数量级,而目前还没有已知的方式进行模拟,因而CV领域就很难构建出GPT这样的AI。Genie模型的出现,让我们看到了一些希望,即生成式模型能够帮助我们更快地构建大规模的虚拟环境。

最后说一句,虽然大家总吐槽谷歌的东西不落地。但是它推出的下棋AI已经让棋手们集体自闭了,当初的自傲已经被击碎。推出的“折叠蛋白”AI,已经让那些搞生物蛋白研究的干的怀疑人生了。所以,我们还是多给点时间!

项目地址:

https://sites.google.com/view/genie-2024/home

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OcYTkcXjwIhju9Z-Lcegm7aA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券