前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >最新!谷歌发布基础世界模型!11B参数,能生成可交互虚拟世界

最新!谷歌发布基础世界模型!11B参数,能生成可交互虚拟世界

作者头像
一个正经的测试
发布2024-02-27 10:56:56
3510
发布2024-02-27 10:56:56
举报

让我们来讲一个故事

今天和女朋友一起做饭很开心,(假设你有女朋友)。

吃完饭后,你打开了电脑

你惊奇的发现,谷歌定义了生成式 AI 的全新范式 —— 生成式交互环境(Genie,Generative Interactive Environments)。Genie 是一个 110 亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境

  • 论文地址:https://arxiv.org/pdf/2402.15391.pdf
  • 项目主页:https://sites.google.com/view/genie-2024/home?pli=1

于是,你决定学习一下这个事情——谷歌发布基础世界模型!11B参数,能生成可交互虚拟世界

前言

谷歌定义了生成式 AI 的全新范式 —— 生成式交互环境(Genie,Generative Interactive Environments)。Genie 是一个 110 亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。

我们可以用它从未见过的图像进行提示,然后与自己想象中的虚拟世界进行互动。

不管是合成图像、照片甚至手绘草图,Genie 都可以从中生成无穷无尽的可玩世界。

什么是Genie

  • 论文地址:https://arxiv.org/pdf/2402.15391.pdf
  • 项目主页:https://sites.google.com/view/genie-2024/home?pli=1

这篇来自 Google DeepMind 的论文介绍了一个 11B 基础世界名为 Genie 的模型,根据 2d 平台游戏的未标记互联网视频进行训练。

先来一波问题答疑

  1. Google Genie 提供哪些功能? Google Genie 能够从图像创建动态的交互式环境,开辟创造力和游戏开发的新领域。
  2. Google Genie 如何学习创建这些环境? 它从大量的互联网视频数据集中学习,了解可控元素和一致的动作,而无需标记数据。
  3. Google Genie 可以处理任何图像吗? 是的,Google Genie 可以从各种图像(包括现实世界的照片和草图)生成可玩的世界。
  4. Google Genie 对 AI 发展有何影响? 它是开发通用人工智能代理的垫脚石,提供了多样化、生成的训练世界的新课程。
  5. 创作者如何使用 Google Genie? 创作者可以使用 Google Genie 将想象的世界变为现实,将其与文本到图像模型相结合以增强创造力。

Genie 具有三个组件:

  • 一个潜在动作模型,用于推断每对帧之间的潜在动作;
  • 一个视频标记器,用于将原始视频帧转换为离散标记;
  • 一个动态模型,根据给定的潜在动作和过去的帧标记,预测下一个动作视频的帧。

Genie 模型还针对机器人视频进行了训练,作为机器人中潜在世界模型应用的概念验证。

可玩世界的基础模型?

近年来,生成式人工智能取得了重大进展,使模型能够跨各种媒介生成创意内容。

Google Genie 通过引入生成交互环境的概念,使这一目标更进一步。与传统的生成模型不同,Google Genie 可以通过单个图像提示生成交互式、可玩的环境。

它的与众不同之处在于,它甚至可以从以前从未遇到过的图像(例如现实世界的照片或草图)生成可玩的世界。

Google Genie 的基础在于其训练过程,该过程利用了大量公开的互联网视频数据集。尽管这些视频缺乏动作标签,但 Google Genius 能够专门从中学习细粒度的控制。

这种能力使模型能够识别观察中的可控元素,并推断生成的环境中一致的潜在动作。相同的潜在动作可以在不同的提示图像中产生相似的行为,展示了模型概括其学习的能力。

学习在没有动作标签的情况下进行控制

Google Genie 最令人着迷的方面之一是它无需操作标签即可学习的能力。

传统的训练方法通常依赖标记数据来教授模型特定的动作,但 Google Genie 采用了不同的方法。通过分析大量的互联网视频,该模型不仅可以了解观察的哪些部分通常是可控的,还可以推断出在不同提示图像中保持一致的各种潜在动作。

潜在操作是 Google Genie 推断的底层操作,它们驱动生成环境的行为。例如,诸如 6, 6, 7, 6, 7, 6, 5, 5, 2, 7 或 5, 6, 2, 2, 6, 2, 5, 7, 7, 7 之类的潜在动作可以产生类似的行为跨越不同的图像。

这种在没有明确标签的情况下学习和推断潜在动作的能力为根据各种图像提示创建交互式环境开辟了可能性

赋能新一代的创作者

只需要一张图像就可以创建一个全新的交互环境。这为生成和进入虚拟世界的各种新方法打开了大门,例如,我们可以采用最先进的文本到图像生成模型,并使用它来生成起始帧,然后我们可以与 Genie 一起栩栩如生。在这里,我们使用Imagen2生成图像并使用 Genie 将它们变为现实。

请看图片

加入模型之后

Google Genie 通过提供一种无缝方式从单个图像生成整个交互式世界,为创作者提供支持。

该技术开辟了新的创造力途径,并为创作者提供了进入虚拟世界的令人兴奋的机会。例如,将 Google Genie 与最先进的文本到图像生成模型相结合,使创作者能够将他们的想象世界变为现实。

通过使用 Imagen2 等模型生成起始帧,然后使用 Google Genie 对其进行动画处理,创作者可以为他们的虚拟创作注入活力。

可能性还不止于此。Google Genie 甚至可以将人类设计的作品(例如草图或现实世界的图像)带入交互式环境中。人类创造力与生成式人工智能的融合为创作者提供了大量探索和扩展其艺术视野的机会。

但它并不止于此,我们甚至可以步入草图等人类设计的创作

加入模型之后

生成虚拟世界的未来

动作视频上训练了一个较小的 2.5B 模型。与平台游戏的情况一样,具有相同潜在动作序列的轨迹通常会表现出相似的行为。这表明 Genie 能够学习一致的动作空间,这可能适合训练具体的多面手智能体

再次,谷歌认为 Genie 是实现通用智能体的基石之作。以往的研究表明,游戏环境可以成为开发 AI 智能体的有效测试平台,但常常受到可用游戏数量的限制。

现在借助 Genie,未来的 AI 智能体可以在新生成世界的无休止的 curriculum 中接受训练。谷歌提出一个概念证明,即 Genie 学到的潜在动作可以转移到真实的人类设计的环境中。

最后,谷歌表示,Genie 是一种通用方法,可以应用于多个领域,而不需要任何额外的领域知识。

尽管所用数据更多是 2D Platformer 游戏游戏和机器人视频,但该方法具备通用性,适用于任何类型的领域,并可扩展到更大的互联网数据集。

以上就是今天的全部内容,希望对大家有所帮助,也希望大家多多留言、点赞、在看、转发四连爱❤️ 支持。 咱们下篇文章见,Bye~👋

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-02-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一个正经的测试 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 学习在没有动作标签的情况下进行控制
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档