谷歌DeepMind祭出新一代通用世界模型——Genie 3,能模拟史无前例的丰富交互环境。
生成时长和分辨率都很给力,还支持通过文本动态改变世界事件,交互式游戏也能用上LLM了。
2024年,谷歌DeepMind首次放出世界模型——Genie 1和Genie 2,为AI智能体生成全新环境。
这次Genie 3是首个支持「实时交互」的世界模型,相较于Genie 2,一致性和真实感均有提升,而且时间更长,几分钟,内容还能保持连贯性。
输入文本提示, Genie 3 以 24 帧每秒的速度生成可交互虚拟世界,分辨率高达 720P,支持超过几分钟保持环境一致性
模型能模拟自然现象,并展现真实世界的物理特性。
支持跨越地理和时间界限,生成如阿尔卑斯山、威尼斯、古希腊等多样场景
原理:
通过自回归方式逐帧生成,Genie 3 能在几分钟内保持环境物体和细节的一致性,视觉记忆最长可达一分钟。
Genie 3一致性是涌现能力。NeRFs和高斯溅射(Gaussian Splatting)也能实现一致的可导航3D环境,但依赖显式3D表征。相比之下,Genie 3 生成的世界则远为动态和丰富,因为模型根据世界描述和用户行为逐帧创造
英伟达Jim Fan高度评价,「这就是游戏引擎2.0时代」!
Genie 3的问世,标志着世界模拟AI迈向了全新高度,加速了人类通向AGI/ASI的终极目标。
Genie 3 可为 AI 智能体(如 SIMA agent)生成丰富环境,支持复杂目标的达成和长期任务训练。
官方介绍:
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
新智元:谷歌深夜放出「创世引擎」Genie 3!一句话秒生宇宙,终极模拟器觉醒