首页
学习
活动
专区
圈层
工具
发布

DeepMind Genie 3问世:文本秒变720p互动世界,AGI模拟技术再突破

谷歌DeepMind推出了迄今为止最先进的世界模拟模型Genie 3,该AI系统可通过文本提示实时生成交互式动态环境。用户能以720p分辨率、24帧每秒的流畅度探索这些生成世界,且环境一致性可维持数分钟。

Genie 3的研发源于DeepMind多年的模拟环境研究——此前AI智能体已在游戏、机器人和开放式学习的虚拟场景中接受训练。相较于前两代产品,Genie 3实现了实时导航与真实感的显著提升,被视为迈向通用人工智能(AGI)的关键一步:它让智能体能够在多样化、开放式环境中体验世界演化规律,理解自身行为的影响。

Genie 3突破了传统AI模型局限于视频或单帧生成的瓶颈,实现了实时交互。它能模拟水、光照等物理现象及自然互动,渲染丰富生态系统、动画角色,构建真实或虚构场景。其核心技术是自回归帧生成——每帧画面均基于历史序列动态演进,用户重返某地时,模型会调用“视觉记忆”确保场景一致性(记忆时长可达1分钟),从而增强沉浸感。

与神经辐射场(NeRFs)或高斯溅射(Gaussian Splatting)等依赖预计算3D表示的方法不同,Genie 3通过逐帧生成实现环境动态性,能响应用户动作与指令。

Genie 3支持DeepMind所称的“可提示世界事件”:除基础导航外,用户可输入文本命令改变天气、引入物体或添加角色,从而模拟反事实场景,扩展智能体对突发变化的学习能力。

通过维持环境长期一致性,Genie 3支持复杂任务的连续执行——这一突破需克服帧生成累积误差难题。测试显示,模型在数分钟交互中表现稳定,适用于目标驱动型任务。

但局限性依然存在:智能体直接行动范围较窄;共享环境中的多智能体交互仍是挑战;真实地理位置模拟精度不足;文本元素需在提示中明确描述才能清晰渲染。

尽管如此,Genie 3标志着AI从“观察/反应”向“想象/模拟”的范式转变——它不仅能生成视觉内容,更能构建可实时探索、交互的完整世界。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O24F6-LeHb9tP7taG3HA6fCw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券