DeepMind Genie 3问世：文本秒变720p互动世界，AGI模拟技术再突破

文章来源：企鹅号 - SENSORO升哲科技

谷歌DeepMind推出了迄今为止最先进的世界模拟模型Genie 3，该AI系统可通过文本提示实时生成交互式动态环境。用户能以720p分辨率、24帧每秒的流畅度探索这些生成世界，且环境一致性可维持数分钟。

Genie 3的研发源于DeepMind多年的模拟环境研究——此前AI智能体已在游戏、机器人和开放式学习的虚拟场景中接受训练。相较于前两代产品，Genie 3实现了实时导航与真实感的显著提升，被视为迈向通用人工智能（AGI）的关键一步：它让智能体能够在多样化、开放式环境中体验世界演化规律，理解自身行为的影响。

Genie 3突破了传统AI模型局限于视频或单帧生成的瓶颈，实现了实时交互。它能模拟水、光照等物理现象及自然互动，渲染丰富生态系统、动画角色，构建真实或虚构场景。其核心技术是自回归帧生成——每帧画面均基于历史序列动态演进，用户重返某地时，模型会调用“视觉记忆”确保场景一致性（记忆时长可达1分钟），从而增强沉浸感。

与神经辐射场（NeRFs）或高斯溅射（Gaussian Splatting）等依赖预计算3D表示的方法不同，Genie 3通过逐帧生成实现环境动态性，能响应用户动作与指令。

Genie 3支持DeepMind所称的“可提示世界事件”：除基础导航外，用户可输入文本命令改变天气、引入物体或添加角色，从而模拟反事实场景，扩展智能体对突发变化的学习能力。

通过维持环境长期一致性，Genie 3支持复杂任务的连续执行——这一突破需克服帧生成累积误差难题。测试显示，模型在数分钟交互中表现稳定，适用于目标驱动型任务。

但局限性依然存在：智能体直接行动范围较窄；共享环境中的多智能体交互仍是挑战；真实地理位置模拟精度不足；文本元素需在提示中明确描述才能清晰渲染。

尽管如此，Genie 3标志着AI从“观察/反应”向“想象/模拟”的范式转变——它不仅能生成视觉内容，更能构建可实时探索、交互的完整世界。

发表于: 25天前2025-08-07 16:42:29
原文链接：https://page.om.qq.com/page/O24F6-LeHb9tP7taG3HA6fCw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

DeepMind Genie 3问世：文本秒变720p互动世界，AGI模拟技术再突破

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐