
上海交通大学等机构联合提出全能驾驶导航世界模型,在生成质量与控制精度上全面超越现有SOTA!
自动驾驶技术的发展正面临着一个关键瓶颈:如何在虚拟环境中进行高效、安全的训练与测试?传统的仿真平台虽然能够提供基本的测试场景,但在真实性、复杂性和交互性方面仍存在明显不足。近日,上海交通大学、东方理工大学、PhiGent Robotics、新加坡国立大学和清华大学的联合团队提出了OmniNWM(Omniscient Driving Navigation World Models),为这一挑战提供了全新的解决方案。

论文链接: https://arxiv.org/pdf/2510.18313 项目主页: https://arlo0o.github.io/OmniNWM/ 代码链接: https://github.com/Ma-Zhuang/OmniNWM
当前自动驾驶世界模型虽然在视频生成方面取得了进展,但在构建鲁棒且通用的闭环仿真系统时,仍面临三大核心挑战:
OmniNWM的创新之处在于将状态生成、动作控制、奖励评估三者无缝集成在一个统一框架中:
OmniNWM首次实现了RGB、语义图、度量深度图、3D语义Occupancy的像素级对齐联合生成:
使用Panoramic Diffusion Transformer (PDiT)作为主干网络
共享解码器确保跨模态一致性
通过SE3D Block + Outer Product技术从2D信息生成3D Occupancy
这种方法不仅提供了丰富的环境感知信息,更为后续的奖励计算奠定了基础。

传统方法依赖稀疏轨迹点控制生成,难以实现精准操控。OmniNWM创新性地提出了归一化全景Plücker Ray-map:
将输入轨迹编码为稠密的射线场,提供像素级引导信号
通过尺度归一化和位姿归一化构建统一的Plücker空间
支持零样本迁移至不同数据集和相机配置
实验显示,该方法控制精度极高(RotErr仅1.42×10⁻²,接近GT水平),且能生成各种OOD(分布外)轨迹,如急转弯、倒车等复杂驾驶行为。


OmniNWM无需外部模型,直接利用生成的3D Occupancy定义稠密奖励函数:
碰撞惩罚:检测与障碍物的碰撞,高速碰撞惩罚更重
越界惩罚:检测车辆是否驶出可行驶区域
速度奖励:鼓励符合交通规则的行驶速度
这种基于规则的奖励机制为自动驾驶策略的评估和优化提供了可解释、可微分的评估标准。
为突破现有模型生成长度的限制,OmniNWM引入了Flexible Forcing策略:
在训练时对每帧、每视角的潜在表示施加独立噪声
支持帧级和片段级两种自回归推理模式
能够生成远超训练数据长度的稳定视频序列(从241帧扩展到321帧)
为实现真正的闭环仿真,团队还开发了专用的Vision-Language-Action(VLA)规划器——OmniNWM-VLA:
基于Qwen-2.5-VL构建,针对自动驾驶场景进行增强
核心是Tri-Modal Mamba-based Interpreter(Tri-MIDI)融合模块
能够理解多模态环境、推理驾驶意图,并输出高精度轨迹
在多项实验中,OmniNWM展现出卓越性能:
OmniNWM具有广泛的应用前景:
OmniNWM首次在状态、动作、奖励三大维度实现统一,为构建高保真、可交互、可评估的自动驾驶世界模型树立了新标杆。

其核心贡献包括:
这项工作不仅推动了自动驾驶仿真技术的前沿,也为未来自动驾驶系统的训练、测试和验证提供了强大工具。随着虚拟世界仿真能力的不断提升,自动驾驶的终极答案或许真的会来自这些高度逼真的虚拟环境。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。