用于人群中自主驾驶的意图感知在线POMDP规划

泡泡航行天下,带你精读决策、规划领域的顶会顶刊文章

标题:Intention-aware online POMDP planning for autonomous driving in a crowd

作者:Haoyu Bai, Shaojun Cai, Nan Ye, David Hsu, Wee Sun Lee

来源:ICRA 2015

编译:李裕超

审核:郑立强

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

大家好,今天为大家带来的文章是——用于人群中自主驾驶的意图感知在线POMDP规划,该文章发表于ICRA 2015。

本文提出了一种意图感知的在线规划方法,用于在人群中实现自动驾驶。为了在行人中实现安全、高效和平滑的驾驶,需要评估未知的行人意图以及将意图不确定性考虑在内,采取高效和鲁棒的动作。我们主要基于部分可观察马尔科夫决策过程(POMDP)实现不确定下的决策。虽然POMDP可能存在计算复杂度过高的问题,我们的实验表明算法在复杂动态环境接近实时运行(3HZ)。说明POMDP的计算复杂度得到改善并成为不确定性下机器人规划的实用工具。

主要贡献

1、证实在线POMDP的最新进展之一,即DESPOT算法,是不确定性下的机器人规划有效工具。

图1 人群动态环境下的自主高尔夫车驾驶

图2 无人车接近人行道上的行人

算法流程

1、POMDP基础

POMDP对系统进行建模,然后在不确定性下采取一系列动作实现奖励的最大化。形式上,POMDP是一个元组:

S,A,Z依次为状态空间、动作空间和观察空间,在每个时间步系统执行一个动作,状态发生迁移,并得到一个观察;

T为条件概率方程,表示采取动作后新状态的概率分布;

O为条件概率方程,表示包含噪声的观察;

R表示在某状态执行某动作后的奖励;

γ为折扣因子。

在部分可观察系统中,系统状态无法全部获知,因此对可能的状态维护一个置信度,并且基于贝叶斯准则更新:

在线POMDP规划寻找使得当前置信度下期望总奖励取最大值的策略,期望总奖励为:

2、POMDP模型

POMDP规划器仅控制沿指定路径的加速度。

1)无人车建模

无人车状态包含平面位姿和瞬时速度。POMDP模型与三个离散的动作选项:加速、保持和减速。路径规划器控制方向盘转角,根据文献[19]建立包含噪声的预测模型。

2)行人建模

每个行人包含平面位置坐标,意图坐标和瞬时速度,在一个时间步内认为速度恒定,预测行人位置时加入高斯噪声,目前的模型比较简单,未来将参考文献[2]和[22]建立更完善的模型。

行人模型没有考虑可能的意图变化,但可以被POMDP规划的置信度更新和重规划处理。

3)传感建模

观察是一个包含无人车位置、速度和所有行人位置的向量。我们没有施加误差,因为比较小且本质上不影响决策。但是行人意图是无法观察的,我们需要从得到的传感数据中评估行人意图并且对意图的不确定性进行应对。

4)奖励建模

奖励帮助实现期望的驾驶行为:安全、高效和平滑。

· 如果行人过于靠近无人车,有较大惩罚;

· 如果无人车离目标比较近,有较大奖励;

· 速度约接近最大速度惩罚越小,鼓励快速驾驶;

· 对加减速行为有轻微惩罚,鼓励平稳驾驶。

3、DESPOT

置信度树的结点为置信度,边为动作-观察对。我们在置信度树通过后续遍历寻找策略。叶结点采用默认的策略实现下限值,内部结点通过贝尔曼方程选择最佳的动作:

方程递归计算了动作分支的最大值和观察分支的平均值,结果是当前置信度下的接近最优的策略。但是计算复杂度为:

H为树深度。对所有动作和观察空间进行搜索的复杂度过高。由于第二项为计算观察的平均值,因此无需遍历全部观察分支,我们采用DESPOT[17],通过采样K个方案构建稀疏采样置信度树,将计算复杂度降低为:

速度规划在不确定性下计算整个DESPOT树下的策略,但仅执行第一步。

4、路径规划

路径规划器将安全、快速和平滑等因素纳入代价函数,相比一般的算法,还将行人运动考虑在内。代价函数为:

5、置信度追踪

通过观察行人运动,置信度追踪器借助贝叶斯准则预测行人意图,意图的改变也可被置信度追踪器更新。

图3 基于POMDP的二级自主驾驶规划

图4 置信度树(浅色)和DESPOT树(深色)

主要结果

1、实验无人车

实验在YAMAHA G22E高尔夫车上进行,低层级无人车控制器控制油门、刹车和方向盘,配置的传感器为SICK LMS 291激光雷达,相机,车轮编码器和IMU。自动驾驶系统基于ROS实现,借助地图通过自适应蒙特卡洛定位[19],融合了激光雷达,车轮编码器和IMU。无人车控制器通过方向盘借助PID实现对路径的跟踪[9],行人的检测和跟踪通过激光雷达和相机实现,借助了HOG特征。

系统包含路径规划,在线POMDP规划,置信度跟踪和行人跟踪,全部运行在4核Intel处理器,实现约2HZ的路径规划和3HZ的在线POMDP规划。无人车最大速度为1.5m/s,当行人接近到0.5m内采用紧急制动,以保证安全。

2、自主高尔夫车实验结果

行人意图被建模为目标位置,如图6中的A到F,路径规划器借助分辨率为0.1m的地图,在0.6m和±18°范围内以1°的间隔进行37次搜索。

POMDP速度规划器追踪最近的6个行人(以0.5m位置和0.03m/s速度分辨率),总计为10^31数量级的观察,但DESPOT处理得很好,加减速度值为0.5m/s,规划维度为90步,每一步间隔时间1/3s。

实验一,参考图5,无人车遭遇单个行人,一开始无人车认为行人最可能前往D或E,行人停下来打电话后,无人车估计行人意图最可能变为F,此时无人车减速而不是加速,应对行人意图的不确定性。

实验二,无人车在将近30个人的人群中自主驾驶,见图7,当有人尝试穿过路径时,无人车减速,当行人远离路径时,无人车维持原速,路径规划器在行人密集程度变化后重新规划路径。

3、仿真结果

无人高尔夫车实验说明算法能够使得无人车在人群中自动驾驶,但由于实验条件无法重复,在仿真环境下与反应式控制算法做对比,见表1,体现了本算法的优势。

图5 无人车遭遇停下来打电话的行人

图6 行人意图、路径和无人车路径

图7 在密集人群中自主驾驶

表1 POMDP与反应式控制的对比

Abstract

This paper presents an intention-aware online planning approach for autonomous driving amid many pedestrians. To drive near pedestrians safely, efficiently, and smoothly, autonomous vehicles must estimate unknown pedestrian intentions and hedge against the uncertainty in intention estimates in order to choose actions that are effective and robust. A key feature of our approach is to use the partially observable Markov decision process (POMDP) for systematic, robust decision making under uncertainty. Although there are concerns about the potentially high computational complexity of POMDP planning, experiments show that our POMDP-based planner runs in near real time, at 3 Hz, on a robot golf cart in a complex, dynamic environment. This indicates that POMDP planning is improving fast in computational efficiency and becoming increasingly practical as a tool for robot planning under uncertainty.

如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190829A02WNP00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券