首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

世界模型:人工智能下一个“高地”与自动驾驶的未来之战

“机器人的 ChatGPT 时刻即将到来。与大语言模型类似,世界基础模型(World Model)对推动机器人和自动驾驶汽车的开发至关重要。”在刚刚结束的 CES 2025 上,英伟达 CEO 黄仁勋身穿新款皮衣亮相,除了发布 RTX 5090 引发瞩目外,还宣布正式进军 AI 领域的下一个关键方向——世界模型。

此次发布的Cosmos 世界基础模型专为物理交互、工业环境和驾驶环境的高质量生成而构建,具备生成逼真视频、创建合成训练数据等能力,帮助机器人和汽车更好地理解物理世界。

不仅是英伟达,谷歌旗下 DeepMind 组建的世界模型研究团队、李飞飞创立的 World Labs,以及初创企业 Decart 和 Odyssey 等,都在积极布局这一领域。北京智源人工智能研究院发布的“2025 年十大 AI 技术趋势”也指出,更注重“因果推理”的世界模型,有望成为多模态大模型的下一阶段。

为什么世界模型会被认为是人工智能的下一个关键突破?它将如何颠覆自动驾驶等科技领域?

世界模型:人工智能的下一块高地

自 OpenAI 在 2022 年底发布 ChatGPT 以来,生成式 AI 逐渐演化出了两条主线:

1.语言模型:从单一文本模态拓展至多模态,具备了文生图、图生文、文生视频等功能,但面临“幻觉”问题,因其缺乏因果推理能力,生成内容有时缺乏逻辑性。

2.世界模型:从数字世界走向物理世界,从一维的数字智能跃升为三维的空间智能。

世界模型的核心在于模拟人类的潜意识推理能力,例如预测事件发展、理解物理因果关系。它能基于多模态数据(文本、音频、图像和视频)创建对现实世界的内部表征,并通过反事实推理(Counterfactual Reasoning)模拟行为后果,从而推动通用人工智能(AGI)的实现。

2018 年,一篇发表在 NeurIPS 顶会的论文首次将“世界模型”概念引入机器学习领域。2024 年,OpenAI 发布的 Sora 文生视频大模型,则是世界模型的具体应用,它可以生成高质量、长达 60 秒的动态视频,广泛应用于游戏、电影以及机器人模拟场景中。

相比现有语言模型仅停留在语义理解阶段,世界模型开始探索物理法则的理解与演绎。Meta 首席 AI 科学家杨立昆曾指出,依靠像素生成世界的方式注定有限,而具备物理认知的世界模型才能真正迈向通用人工智能。

自动驾驶的“终局之战”?

自动驾驶的下一步发展,对丰富的场景数据提出了更高要求。然而,现实中数据采集成本高昂,危险场景和长尾场景稀缺,制约了技术进步。

世界模型正是打破瓶颈的关键工具之一。通过生成合成数据,它能为自动驾驶模型提供逼真的训练场景,尤其是在端到端的自动驾驶方案中表现突出。

从技术路径来看,自动驾驶的演进历程揭示了 AI 的深度融合:从依赖硬件提升传感能力,到算法升级以实现 2D-3D 转换,再到基于生成式 AI 模型生成复杂场景数据。

国内外车企也在积极跟进。例如:

英伟达 Cosmos 世界模型:可生成虚拟世界状态,支持自动驾驶和机器人应用。

特斯拉通用世界模型:基于过往视频片段预测“未来场景”。

蔚来 NWM:具备长时序推演能力,能快速模拟多种场景并输出最优决策。

理想汽车的“生成+重建”模型:结合 3D 高斯模型和扩散模型,为自动驾驶训练生成高质量数据集。

未来,世界模型不仅将助力自动驾驶实现质的跃迁,还可能成为 AI 技术在物理世界应用的一道分水岭。

车端“瘦身”、云端“加码”

从长远看,自动驾驶的发展将从车端竞争逐渐转向云端竞争,呈现“更轻的车、更重的云”趋势。

根据阿伯丁大学和 MIT 的研究,生成式 AI 模型的训练和运行对算力的需求大幅增长。即使是早期的 Sora 模型,也需要数千个 GPU 来支持训练与推理。未来,车端算力难以承载这些复杂任务,智能化将向云端迁移。

云端可以利用强大的数据处理能力和实时计算,结合路侧边缘计算系统,为车辆提供动态支持。例如:

分析交通数据,优化道路通行效率;

为自动驾驶提供高效的模型训练和 OTA 更新;

创建更完善的车路云协同闭环,推动智能驾驶技术普及化。

未来挑战与展望

尽管世界模型的潜力巨大,但其落地仍面临诸多挑战:

1.数据质量与多样性:高质量训练数据的获取成本高昂,模型偏见可能影响决策结果。

2.复杂环境的泛化能力:现实世界的不可预测性远超现有模型的处理能力。

3.算力瓶颈:庞大的计算需求可能成为模型普及的障碍。

对于自动驾驶行业来说,世界模型的引入可能是未来发展的“必经之路”。通过技术迭代与场景创新,它不仅在高阶自动驾驶的攀登中发挥重要作用,更将在更广泛的 AI 应用中,开启一段全新的征程。

从语言模型到世界模型,从数字智能到空间智能,AI 技术的迭代正在逐步接近通用人工智能的边界。世界模型的崛起,为机器人与自动驾驶提供了新的路径。技术的“试错”与“死磕”,终将推动行业迎来一个更加明朗的未来。

------------------------------------------------------------------------------

“垂直求值”——聚焦学术前沿,速览科技要闻。精筛各领域文献,深析科研成果。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OJK532KCHZRVme7CV16ZyU2Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券