首页
学习
活动
专区
圈层
工具
发布

自动驾驶的“模仿学习”能走多远?背后隐藏的深层问题

端到端自动驾驶,目前基本都依赖模仿学习来训练模型。简单来说,就是通过大量的人类驾驶数据来监督模型学会如何开车。

这个思路最初的目标是:只要有足够的数据,模型就能学好开车。听起来很直接,也很有吸引力,但实际情况远比想象中复杂。

模仿学习是通过模仿专家行为来训练模型的一种方法。与强化学习不同,强化学习通过奖励来指导模型学习。

在模仿学习中,有一个特别简单的方式叫行为克隆,它就是把每一段驾驶数据当成一个独立样本,按常规的监督学习方法来训练。

虽然这种方法在某些场景下有效,但它也有不少局限性,尤其是在自动驾驶这种复杂的任务中。

OOD问题:难以应对的场景

模仿学习一个大问题就是“场景外”(Out of Distribution,OOD)的问题。简单来说,就是训练数据和实际驾驶环境的差距可能非常大。

举个例子,爆胎这种情况在日常驾驶中虽然不常见,但在自动驾驶测试中却是个非常特殊的场景。

训练数据里几乎不涵盖这种情况,因此,当系统遇到类似情况时,它可能根本不知道该怎么反应,甚至可能导致危险。

虽然可以通过数据增强来增加训练数据的多样性,但这种方法无法从根本上解决问题。

更严重的是,模仿学习的分布本身是多峰的,也就是说,我们不仅要在数据采集时覆盖到所有可能的罕见状态,还得确保这些状态下的每一个“峰值”都被学习到,采集工作变得异常复杂。

稀疏监督:数据量大,效率低

另一个模仿学习面临的挑战是稀疏监督问题。

问题的核心是,模仿学习往往是在高维输入和低维输出之间进行映射。这意味着,在每一帧的视频序列中,系统只有一条最终的轨迹作为输出,输入和输出之间的信息量不成正比,导致学习效率低。

在自动驾驶中,系统的输入可能是一个多帧视频序列,而输出却只有一条轨迹,可能就只有十几维的参数。这种高维到低维的映射,造成了数据的利用效率非常低。

相比之下,强化学习也面临稀疏监督的问题,虽然可以设计很多奖励机制来指导学习,但这些奖励往往只在终止状态给出,需要通过大量的计算才能把这个奖励信息传递给其他状态。

这就是“稀疏监督”的难题,无论是模仿学习还是强化学习,都很难在短时间内高效地利用数据。

如何实现密集监督?

要解决这些问题,一个可行的办法是设计密集的监督信号。

在强化学习中,这通常被称为奖励塑形。奖励塑形的目标就是让每一步都有明确的反馈,这样模型就能更高效地学习。

比如,在自动驾驶中,可以通过设计合理的奖励函数,来让模型在每一个驾驶步骤中都有目标,并且根据当前的状态给予及时的反馈。

然而,设计有效的奖励机制在自动驾驶中并不容易。自动驾驶不仅仅是遵循简单的驾驶规则,很多时候,驾驶决策需要根据复杂的环境变化和长远的风险来调整行为。

为此,一些研究尝试通过引入大模型,结合世界常识来辅助模仿学习,帮助系统理解为何专家会做出某种决策。这种做法可以为系统提供更多的监督信息,从而弥补传统示范数据的不足。

总结:模仿学习,远非万全之策

模仿学习确实能为自动驾驶系统提供一定的帮助,但它也有不少局限性,特别是在应对稀有场景和高维输入输出的情况下。

对于这些问题,我们不能指望通过单纯的数据增强或者模仿学习来解决,反而需要考虑结合强化学习、设计合理的奖励机制,甚至借助大模型来为系统注入常识。

虽然模仿学习和强化学习各有优劣,但二者结合使用,或许能为自动驾驶的未来提供一条更稳健的道路。

·················END·················

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O69m8SIq5gMyzvtKoRrtEEDQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券