上周末,商汤绝影发布了R-UniAD端到端智驾方案,官方对其的解释为「与世界模型协同交互的端到端自动驾驶路线」。
UniAD相信很多人并不陌生,作为CVPR2023的Best Paper,它向我们揭示了端到端自动驾驶的应用范式,成为了许多人了解端到端的第一课。
而这次发布的R-UniAD,「R」代表「RL」,也就是强化学习,被认为是智驾由70-80分迈向90分的最佳(甚至唯一)途径。
目前的端到端智驾,主要依靠模仿学习,也就是通过大量的场景数据片段(Clips),让模型学会如何「像」人一样开车。这种模仿学习,用于训练端到端模型的数据片段越多,效果就越好,因为它意味着更多的场景覆盖,模型的泛化能力和处理复杂情况的能力就更强。
但模仿学习的模式就决定了它存在能力上限:无限接近人类,也就难以超过人类,毕竟是人就会犯错,学习人类的模型也难以例外。
因此,模型的能力想要更进一步,需要强化学习。
强化学习是DeepSeek提升推理能力的核心机制,它让模型可以自主探索最优解题路径,通过奖励机制(如答案准确性评估、奖励函数设计等)引导模型生成更准确、逻辑性更强的答案,无需依赖大量人工标注数据即可实现高效自我优化。
就像训练小狗:它做一个动作(如坐下),对了就给零食(奖励),错了就不给。小狗通过不断尝试,记住哪些动作能获得更多零食,最终学会最优策略。
但对于智驾的强化学习,想要工程落地却很难。
首当其冲的一点:强化学习需要在环境中试错探索,但一辆车在真实道路训练中如果需经历10万次碰撞才能学会避障,这显然不可行。
因此通过「仿真系统」对模型进行训练,成为智驾强化学习的关键方法。
但现有的仿真系统,在对智驾模型进行训练时,也面临许多挑战。
例如:如何保证传感器仿真保真度?如何防止端到端模型反馈延迟导致的仿真环境"时间错位"?如何保证模型训练时,不同的输出可以得到低误差的他车轨迹预测?车辆的动力学模型与规划指令的数值稳定性如何与现实世界保持一致?
这些问题综合下来,使如今的端到端智驾仍以模仿学习为主,甚至Clips达到千万级。
而R-UniAD,则是通过在模型初始阶段的模拟学习和中后期的传感器仿真强化学习,基于行业标杆级别的世界模型——「开悟」世界模型,证明了端到端模型与高保真世界模型实时交互的可行性,这对于整个业界来说,都是一次非常有价值的尝试。
领取专属 10元无门槛券
私享最新 技术干货