高级指令约束下的驾驶策略模仿学习的端到端无人驾驶

泡泡图灵智库,带你精读机器人顶级会议文章

标题:End-to-end Driving via Conditional Imitation Learning

作者:Felipe Codevilla, Matthias Muller, Antonio Lopez, Vladlen Koltun, Alexey Dosovitskiy

来源:arXiv 2018

编译:杨小育

审核:皮燕燕

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

大家好,今天为大家带来的文章是——高级指令约束下的驾驶策略模仿学习的端到端无人驾驶,该文章发表于arXiv 2018。

学习人类驾驶行为后的深度神经网络已经具备车道线跟随和避障功能。但是在实际测试时,这种经过模仿学习的神经网络所做出的的驾驶策略是不受控制的。比如,一辆模仿人类驾驶行为的端到端控制的无人车是无法被控制在即将到来的路口完成特定的转弯行为。这就降低了这种端到端方法的普遍适用性。我们提出了一种在高级指令约束下进行驾驶行为模仿学习的端到端的神经网络。这个经过训练的网络可以对无人车进行运动控制,并且能同时响应拐弯、直行等高级别的导航指令。我们在不同的基于视觉的驾驶行为模仿学习架构上加入高级指令约束,分别在城市三维模拟环境和1:5缩比车的真实环境进行实验,实验结果表明两种情况下该方法都可以实现对无人车的控制,并响应高级指令。

主要贡献

1、提出有高级指令约束的驾驶行为模仿学习方法,可以把无人车运动控制(方向盘角、加速度)和高级指令(直行、拐弯、车道保持)结合起来,避免了现有图像到控制的端到端的方法在交叉路口决策时的模糊性。

算法流程

1、数学模型

图1 该方法的流程

数据集为

其中Oi为i时刻的视觉观测数据,Ci为i时刻的高级指令,ai为i时刻的无人车动作。在有条件约束的模仿学习的数学模型为

其中F为关于参数θ的似然函数

2、网络结构

图2 两种用于命令条件模仿学习的网络架构。(a)上图:高级指令作为网络输入与图像和测量数据一起被处理。(b)下图为分支结构:高级指令充当在专用子模块之间进行选择的开关。

3、网络结构细节

图像模块:8个卷积层,2个全连接层,第一个卷积层的卷积核为5*5,其余为3*3,第1、3、5卷积层的步长为2,通道数从第一卷积层的32增长为256;全连接层包含512个神经元;隐含层的激活函数为ReLU;卷积层使用20%的dropout,全连接层为50%的dropout。

4、训练细节

图像的采集为车前身的左中右三个摄像头进行,同时为增加系统的鲁棒性,作者对所采集的数据进行了数据增强:改变对比度、亮度、色调;进行高斯模糊,加入高斯噪声、椒盐噪声,有选择的进行区域丢失。

图3 数据收集期间的噪音注入。

左图显示转向控制[rad]与时间[s]的关系,红色曲线是注入的噪声信号,绿色曲线是驾驶员的转向信号,蓝色曲线是提供给汽车的转向信号,它是驾驶员控制和噪声的总和。

右侧的图像显示了三个时间点的驾驶员视野(轨迹为事后覆盖的可视化)。 在时间0和大约1.0之间,噪声产生向右的漂移,如图(a)所示,在1.0到2.5秒触发人为反应,如(b)所示。 最后,汽车从干扰中恢复,如(c)所示。

主要结果

1、CARLA仿真环境测试

图4CARLA仿真平台中模拟场景。 城镇1用于训练(左),城镇2用于测试(右)

图5 模拟场景的实验结果,所进行对比的指标有成功率,以及每公里的违章次数,实验结果表明文中的分支方法效果最好。

2、真实环境的测试

图6 5:1缩比无人车模型,使用Pixhawk控制系统作为小车的中控系统(下位机),给出PWM信号来控制汽车的转向和加减速;TX2开发板作为上位机,运行神经网络,把三个摄像头采集的视觉信号进行处理后,给出高级别的控制指令

图7 真实环境的地图

图8 真实环境的测试结果。所对比的方法有高级指令直接输入法、分支法、不加噪声法、不进行数据增强法;所对比的指标有错过交叉路口的百分比、人为干预次数、总耗时。实验结果表明,分支的方法效果最好。

3、推广至新的环境

图9 将模型推广至新的环境进行测试,实验结果表明该方法可以实现对无人车的控制和响应高级别的指令

Abstract

Deep networks trained on demonstrations of human driving have learned to follow roads and avoid obstacles. However, driving policies trained via imitation learning cannot be controlled at test time. A vehicle trained end-to-end to imitate an expert cannot be guided to take a specific turn at an up-coming intersection. This limits the utility of such systems. We propose to condition imitation learning on high-level command input. At test time, the learned driving policy functions as a chauffeur that handles sensorimotor coordination but continues to respond to navigational commands. We evaluate different architectures for conditional imitation learning in vision-based driving. We conduct experiments in realistic three-dimensional simulations of urban driving and on a 1/5 scale robotic truck that is trained to drive in a residential area. Both systems drive based on visual input yet remain responsive to high-level navigational commands.

如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181103A08M0I00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励