首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌Genie爆打Sora,基础世界模型AGI来了?一张草图即生一个世界,通才智能体迎来新革命

在AI的世界里,谷歌DeepMind团队最近放出了一个大招,他们发布了一个名为Genie的“精灵”,这不是阿拉丁神灯里的那位,而是一个拥有110亿参数的基础世界模型。Genie的超能力在于,它能够从一张图片、一张照片,甚至是一张草图中,创造出一个可以互动的虚拟世界。这不仅仅是魔法,这是科技的魔法!

Genie的诞生,让Sora这位当红炸子鸡感受到了压力。Sora虽然也能创造出令人惊叹的场景,但它的动作并不可控。而Genie,这位新晋的AI明星,却能够让用户像玩电子游戏一样,与自己创造的虚拟世界进行互动。这不仅仅是一场技术的较量,这是一场关于想象力的革命。

Genie的疯狂之处在于,它学习了20万小时的未标注互联网视频,而且完全无需监督。这意味着,Genie能够在没有任何动作标注的情况下,自行学习并确定谁是主角,并让用户能够在生成的世界中对其控制。这种自我学习的能力,让Genie在基础世界模型的领域中确立了自己的地位。

Genie的架构包含了三个核心组件:潜动作模型、视频分词器,以及自回归动态模型。这三个组件共同工作,使得Genie不仅能够让用户与虚拟世界互动,还能够训练智能体模仿视频中的行为。这种能力,为培养未来的通才智能体开辟了新的途径,重塑了交互式生成环境的格局。

Genie的诞生,不仅仅是AI领域的一次飞跃,它还预示着视频游戏领域的一场变革。想象一下,你只需一张草图,就能创造出一个全新的交互环境,这为游戏设计师们提供了无限的可能性。Genie团队的负责人Tim Rocktäschel甚至表示,Genie是人类迈向AGI(通用人工智能)旅途中非常重要的一步。

Genie的潜力不仅仅局限于游戏领域。谷歌表示,Genie是一个通用的工具,它能够跨越多个领域,而且不需要额外的专业知识就能使用。在机器人领域,Genie模型能够让机器人处理现实世界中的一些任务。这意味着,Genie不仅能够模拟可变形物体,还能够通过分析数据学会如何做到这一点。

Genie的诞生,让我们看到了AI技术的无限可能。它不仅仅是一个创新工具,它还为培养能够适应多种环境的AI智能体提供了新的可能性。过去的研究已经证明,使用游戏环境可以有效地开发AI智能体,但通常当时能用的游戏数量有限。相比之下,Genie学会的动作是可以被应用到真实世界中去的。

Genie的实现方法基于视觉Transformer(ViT),这是一种高效的架构,它能够在所有模型组件中平衡模型容量与计算限制。Genie的架构中计算复杂度的主导因素与帧数的增长呈线性关系,这使得它对于视频生成变得更加高效,能够在延长的交互中保持一致的动态。

Genie的实验结果表明,随着模型参数和批大小的增加,模型的性能也会稳步提升。这证明了Genie方法受益于扩展。同时,Genie模型的定性结果也展示了其在不同领域的应用潜力,无论是在平台训练模型还是在机器人训练模型中,Genie都能够生成高质量的、可控的视频。

Genie的诞生,让我们对AI的未来充满了期待。它不仅仅是一个技术突破,它更是一个关于创造力和想象力的新时代的开始。随着技术的进步,我们有理由相信,Genie将成为推动未来全能AI智能体成长的关键力量。在这个新时代,我们或许能够仅凭图像或文字创造出完整的可交互世界,这将是一个多么令人兴奋的未来啊!

帮朋友的具身智能项目招募 机器人设计 相关人才,该项目已经获得中关村相关产业基金的认可,商业前景良好,如果你从事机器人设计相关领域的工作,欢迎对接交流~

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OK-xeQ88J76fWINzVtbJKaCw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券