谷歌Genie发布，AI生成2D像素游戏

文章来源：企鹅号 - 晓得智能

近日，科技巨头谷歌旗下DeepMind实验室推出了名为“Genie”的前沿生成式交互环境技术，这是一个具有110亿参数的基础世界模型，通过深度学习和创新架构，能够从任意图像提示中生成可操控、可交互的虚拟环境，标志着人工智能在模拟和创造无限可能的虚拟世界方面迈出了重大一步。

在Sora开创性的虚拟世界技术面世不久后，谷歌以其极具突破性的AI模型Genie回应了业界的期待，再度引领AI技术创新潮流。

Genie凭借其强大的110亿参数力量，能够从未经标注的单幅图像出发，创造出充满活力、可实时互动的虚拟世界。

无论是合成图像、真实照片抑或是设计师的手绘草图，Genie都能神奇般地将其转化为一个庞大而细致的互动场景。

设计师的手绘草图生成

真实照片生成

Genie的核心结构由三大部分构成：潜在动作模型、视频tokenizer以及动态模型。

潜在动作模型负责推断连续帧间隐藏的运动状态；视频tokenizer将原始视频帧编码为离散的token；动态模型则依据这些潜在动作及历史帧的token信息，精准预测下一帧的内容。

这一先进机制使得Genie能够在缺乏动作标签的数据集上学习精确控制，突破了过往依赖明确动作标签训练AI的局限。

尤其值得一提的是，Genie对无标注互联网视频的卓越适应能力，它能自主识别并学习视频中可以控制的细微部分，进而推广至生成环境中的一系列潜在动作。

这意味着，在不同的图像提示下，相同的潜在动作能够产生一致性行为，展现了Genie在理解和生成复杂交互场景上的高超技能。

此外，Genie有望塑造下一代的创作者群体。只需提供一张创意图像，用户就能踏入一个由Genie构建的全新互动天地，进一步拓宽了利用文本生成图像模型如Imagen2与Genie联动创作的可能性。

正如演示中所示，通过结合先进技术，静态图像瞬间跃然成生动的交互环境。

Genie的应用前景广阔，不仅限于游戏、设计和增强现实领域，它还在机器人行业的潜力得到了初步证实。

谷歌团队成功展示了Genie学到的潜在动作如何迁移到真实的人类设计环境中，为未来AI智能体在无穷生成环境中进行训练提供了可能的路径。

通过Genie，研发者有望培育出能够适应各种未知环境、具有更强泛化能力的智能体，朝着实现通用智能的目标迈进。

值得注意的是，Genie是一种高度通用的方法，无需特定领域知识即可应用于多种场景。

尽管初期训练数据主要来自2D平台游戏和机器人视频，但其核心算法具有广泛的适用性和可扩展性，有望在未来处理更大规模的互联网视频数据集。

谷歌DeepMind现已公开了题为《Genie: Generative Interactive Environments》的科研论文，揭示了Genie背后的技术细节。

该论文由六位共同第一作者合作完成，其中包括杰出华人学者石宇歌，现任谷歌DeepMind研究科学家，她在牛津大学取得机器学习博士学位。

Genie架构中的各个组件均基于Vision Transformer（ViT）构建，并采用了ST-transformer架构以解决Transformer在处理视频数据时面临的内存瓶颈问题。

通过潜在动作模型、视频分词器和动态模型的精密协作，Genie成功实现了从图像到可控、连贯的视频流的高效生成。

定性分析表明，不论是在Platformers游戏还是Robotics数据集上训练的模型，Genie都能够生成质量上乘、跨越不同领域的可控视频。

展望未来，Genie不仅可用于创建前所未有的游戏体验和艺术创作，还有潜力成为训练多任务智能体的强大基础世界模型，助力推动人工智能在具身智能、机器人学以及其他众多领域内的发展进步。

此次Genie的发布，无疑为全球AI界注入了一股强大的创新动力，预示着一个充满无限想象力和探索可能性的虚拟世界新时代的到来。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货