“机器人的 ChatGPT 时刻即将到来。与大语言模型类似,世界基础模型(World Model)对推动机器人和自动驾驶汽车的开发至关重要。”在刚刚结束的 CES 2025 上,英伟达 CEO 黄仁勋身穿新款皮衣亮相,除了发布 RTX 5090 引发瞩目外,还宣布正式进军 AI 领域的下一个关键方向——世界模型。
此次发布的Cosmos 世界基础模型专为物理交互、工业环境和驾驶环境的高质量生成而构建,具备生成逼真视频、创建合成训练数据等能力,帮助机器人和汽车更好地理解物理世界。
不仅是英伟达,谷歌旗下 DeepMind 组建的世界模型研究团队、李飞飞创立的 World Labs,以及初创企业 Decart 和 Odyssey 等,都在积极布局这一领域。北京智源人工智能研究院发布的“2025 年十大 AI 技术趋势”也指出,更注重“因果推理”的世界模型,有望成为多模态大模型的下一阶段。
为什么世界模型会被认为是人工智能的下一个关键突破?它将如何颠覆自动驾驶等科技领域?
世界模型:人工智能的下一块高地
自 OpenAI 在 2022 年底发布 ChatGPT 以来,生成式 AI 逐渐演化出了两条主线:
1.语言模型:从单一文本模态拓展至多模态,具备了文生图、图生文、文生视频等功能,但面临“幻觉”问题,因其缺乏因果推理能力,生成内容有时缺乏逻辑性。
2.世界模型:从数字世界走向物理世界,从一维的数字智能跃升为三维的空间智能。
世界模型的核心在于模拟人类的潜意识推理能力,例如预测事件发展、理解物理因果关系。它能基于多模态数据(文本、音频、图像和视频)创建对现实世界的内部表征,并通过反事实推理(Counterfactual Reasoning)模拟行为后果,从而推动通用人工智能(AGI)的实现。
2018 年,一篇发表在 NeurIPS 顶会的论文首次将“世界模型”概念引入机器学习领域。2024 年,OpenAI 发布的 Sora 文生视频大模型,则是世界模型的具体应用,它可以生成高质量、长达 60 秒的动态视频,广泛应用于游戏、电影以及机器人模拟场景中。
相比现有语言模型仅停留在语义理解阶段,世界模型开始探索物理法则的理解与演绎。Meta 首席 AI 科学家杨立昆曾指出,依靠像素生成世界的方式注定有限,而具备物理认知的世界模型才能真正迈向通用人工智能。
自动驾驶的“终局之战”?
自动驾驶的下一步发展,对丰富的场景数据提出了更高要求。然而,现实中数据采集成本高昂,危险场景和长尾场景稀缺,制约了技术进步。
世界模型正是打破瓶颈的关键工具之一。通过生成合成数据,它能为自动驾驶模型提供逼真的训练场景,尤其是在端到端的自动驾驶方案中表现突出。
从技术路径来看,自动驾驶的演进历程揭示了 AI 的深度融合:从依赖硬件提升传感能力,到算法升级以实现 2D-3D 转换,再到基于生成式 AI 模型生成复杂场景数据。
国内外车企也在积极跟进。例如:
英伟达 Cosmos 世界模型:可生成虚拟世界状态,支持自动驾驶和机器人应用。
特斯拉通用世界模型:基于过往视频片段预测“未来场景”。
蔚来 NWM:具备长时序推演能力,能快速模拟多种场景并输出最优决策。
理想汽车的“生成+重建”模型:结合 3D 高斯模型和扩散模型,为自动驾驶训练生成高质量数据集。
未来,世界模型不仅将助力自动驾驶实现质的跃迁,还可能成为 AI 技术在物理世界应用的一道分水岭。
车端“瘦身”、云端“加码”
从长远看,自动驾驶的发展将从车端竞争逐渐转向云端竞争,呈现“更轻的车、更重的云”趋势。
根据阿伯丁大学和 MIT 的研究,生成式 AI 模型的训练和运行对算力的需求大幅增长。即使是早期的 Sora 模型,也需要数千个 GPU 来支持训练与推理。未来,车端算力难以承载这些复杂任务,智能化将向云端迁移。
云端可以利用强大的数据处理能力和实时计算,结合路侧边缘计算系统,为车辆提供动态支持。例如:
分析交通数据,优化道路通行效率;
为自动驾驶提供高效的模型训练和 OTA 更新;
创建更完善的车路云协同闭环,推动智能驾驶技术普及化。
未来挑战与展望
尽管世界模型的潜力巨大,但其落地仍面临诸多挑战:
1.数据质量与多样性:高质量训练数据的获取成本高昂,模型偏见可能影响决策结果。
2.复杂环境的泛化能力:现实世界的不可预测性远超现有模型的处理能力。
3.算力瓶颈:庞大的计算需求可能成为模型普及的障碍。
对于自动驾驶行业来说,世界模型的引入可能是未来发展的“必经之路”。通过技术迭代与场景创新,它不仅在高阶自动驾驶的攀登中发挥重要作用,更将在更广泛的 AI 应用中,开启一段全新的征程。
从语言模型到世界模型,从数字智能到空间智能,AI 技术的迭代正在逐步接近通用人工智能的边界。世界模型的崛起,为机器人与自动驾驶提供了新的路径。技术的“试错”与“死磕”,终将推动行业迎来一个更加明朗的未来。
------------------------------------------------------------------------------
“垂直求值”——聚焦学术前沿,速览科技要闻。精筛各领域文献,深析科研成果。
领取专属 10元无门槛券
私享最新 技术干货