无人驾驶中的深度强化学习

文章来源：企鹅号 - 漫谈人工智能

本文翻译自 Sen Wang, Daoyuan Jia and Xinshao Weng. Deep Reinforcement Learning for Autonomous Driving, CVPR, 2018。

摘要

自从深度神经网络复兴以来，强化学习在很多方面稳步提高，在许多传统游戏领域表现优于人。但是，这些成功不容易被复制到自动驾驶，因为现实世界的状态空间是极端复杂的，动作空间是连续和精细的控制是必须的。此外，自动驾驶车辆还必须保持功能复杂环境下的安全。为了应对这些挑战，我们首先采用深度确定性策略梯度（DDPG）算法，具有在连续域中处理复杂状态和动作空间的能力。然后我们选择开放赛车模拟器（TORCS）作为我们的环境。同时，我们选择一组适当的传感器信息来自TORCS并设计我们自己的奖励。为了在TORCS环境中使用DDPG算法，我们为DDPG内的行为和评价指标设计我们自己的网络架构。为了证明我们的模型的有效性，我们评估了不同的模式。

介绍

自主驾驶[10]是计算机视觉和控制系统的一个活跃的研究领域。即使在业界，许多公司，如谷歌，特斯拉，NVIDIA [3]，优步和百度，也都致力于此开发先进的自动驾驶汽车，因为它真正有益于人类的生活世界。另一方面，深层强化学习技术已成功应用于各种游戏都取得了巨大的成功。深层强化学习算法的成功证明可以通过优化高维度和行动空间中策略指导的对象来自然地解决现实环境中的控制问题。特别地，状态空间经常是由视觉控制系统中的原始图像获得的图像特征表示。

然而，目前通过深度强化学习算法取得的成功主要在只有离散，有限的动作空间和没有复杂内容的状态空间中，这些案例不适用于自动驾驶系统的算法。例如，某些Atari游戏只有四个动作。对于AlphaGo，即使间隙空间是高维的，规则和状态非常简单也非常容易理解。在这种情况下，视觉问题非常容易解决，然后控制器只需要专注于优化有限的动作空间的策略。但对于自动驾驶，状态空间和来自环境的输入图像包含高度复杂的背景和内部物体，如人类，可以动态变化并且行为不可预测。这涉及许多困难的视觉任务，如物体探测，场景理解，深度估计。更重要的是，我们的控制器必须正确，快速地行动，在这种困难的情况下，以避免撞击物体并保持安全。

实现自动驾驶的直接方式是通过使用精确而强大的硬件和传感器捕获环境信息，如激光雷达和惯性测量单元（IMU）。这些硬件系统可以精确地重建3D信息，然后帮助车辆实现使用强化学习的无碰撞智能导航。但是，有硬件部署非常昂贵和繁重。更重要的是，他们只告诉我们3D物理表面世界而不是理解环境，而不是真正的智慧。这两个硬件系统的原因限制了自动驾驶技术的普及。

一种替代解决方案是结合视觉和强化学习算法然后解决共同的感知和导航问题。然而，感知问题非常困难解决，因为我们的世界是极端复杂和不可预测的。换句话说，有巨大的方差，例如颜色，物体形状，物体类型，背景和视点。即使是静止的环境也很难理解，更不用说环境在变化了。自动驾驶汽车正在运行同时，控制问题在现实世界中也具有挑战性，因为动作空间是连续的，并且可以同时执行不同的动作。例如，为了使转弯更平稳，我们可以同时转向和制动并调节其程度。更重要的是，安全的自动驾驶汽车必须确保功能安全处理紧急事件。例如，当十字路口突然有孩子跑过马路时他们可以立即刹车。

为了实现自动驾驶，人们正试图同时利用传感器的信息和视觉算法。许多合成驾驶模拟器用于学习导航政策。与此同时，人们正在发展更加强大和高效强化学习算法以成功处理复杂真实世界的情境。在这个项目中，我们正在尝试探索和分析在合成模拟器中实现自动驾驶的可能性。

我们采用深度确定性政策梯度（DDPG）算法[9]，它结合起来确定性政策梯度，行为者 - 评价算法和深度Q学习的思想。我们选择开放赛车模拟器（TORCS）作为我们训练我们的代理人的环境。为了学习在TORCS中的策略，我们首先选择一组适当的传感器信息作为TORCS的输入。基于这些输入，我们然后在TORCS内设计我们自己的奖励，以鼓励我们的控制器在没有撞到其他车辆的情况下跑得快，同时保持在路中心。为了适应 TORCS环境，我们设计了自己的网络架构的DDPG算法。为了证明我们的方法的有效性，我们评估了控制器在不同TORCS模式下的性能，包含不同的视觉信息。

更详细的内容请看论文原文。

https://arxiv.org/abs/1811.11329

发表于: 2019-01-272019-01-27 17:08:07
原文链接：https://kuaibao.qq.com/s/20190127A0N3T100?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

无人驾驶中的深度强化学习

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐