伯克利人工智能研究:FaSTrack——一种确保动态系统的安全导航工具

AiTechYun

编辑:Yining

首先观看→https://www.youtube.com/watch?v=KcJJOI2TYJA

问题:快速和安全的运动规划

实时自主的运动规划和导航是很困难的,尤其前提是在是否具备安全性的时候。当出现复杂的动态系统,外部干扰(如风)和未知的环境时,这就变得更加困难了。在这项工作中,我们的目标是使现有的实时运动规划器具有鲁棒性,以保证在动态系统的导航过程中安全。

在控制理论中,有像哈密顿-雅可比可达性分析这样的技术,提供了系统行为的严格安全保证,以及达到给定目标的最优控制器(见图1)。然而,一般而言,哈密顿-雅可比可达性分析中使用的计算方法仅可用于可分解和/或低维度系统;这是由于“维度的诅咒”。这意味着我们不能为超过两个维度的系统处理安全的轨迹。由于大多数现实世界的系统模型,如汽车、飞机和四轴飞行器都有两个以上的维度,这些方法在现实中通常是难以处理的。

哈密顿-雅可比可达性分析:http://ieeexplore.ieee.org/abstract/document/1463302/

另一方面,像快速遍历随机树(RRT)和模型预测控制(MPC)这样的几何运动规划器可以通过使用简化的系统动态模型和/或短期规划的视野(horizon)在实时执行规划。虽然这让我们能够进行实时的运动规划,但最终的轨迹可能过于简单,导致不可避免的碰撞,甚至可能是动态的并不可行的(见图1)。例如,设想你在骑自行车,沿着人行道追踪行人的轨迹。这条路径引导你径直骑向一棵树,然后在最后一秒的时候,你想以90度的转弯避开这棵树。但是你的自行车做不到这么大的转弯,所以你会撞到树上。一般来说,机器人专家通过假设障碍比计划中的实际情况略大一些,从而缓和了这一问题。这大大提高了不碰撞的可能性,但仍然不能提供足够的保证,并可能导致意外的碰撞。

那么,我们如何将快速规划的速度与缓慢规划的安全保证结合起来呢?

图1:在左边,我们有一个高维度的飞行器,它通过一个障碍路线进入一个目标。计算最优安全轨道是一个缓慢而有时较为棘手的任务,而重新规划几乎是不可能的。在右边,我们简化了我们的飞行器模型(在这种情况下,假设它可以在点上的直线上移动)。这使我们能够非常迅速地做出规划,但是当我们执行规划的轨迹时,我们可能发现我们不能真正地沿着这条路径走,最终会发生碰撞。

解决方案:FaSTrack

FaSTrack(Fast and Safe Tracking),翻译过来是“快速而安全的跟踪”。FaSTrack是一种工具,它本质上是像RRT或MPC这样的快速运动规划器,但却同时保持实时的性能。FaSTrack允许用户以简化的动态方式实现快速运动规划,同时以预先计算的边界的形式保持安全,这是在规划器状态和实际的自治系统状态之间的最大可能距离。我们称这个距离为跟踪误差界(tracking error bound)。该预算法还能得到一个最优的控制查找表(lookup table),为自治系统提供最优的误差反馈控制器,使其能够实时地进行在线规划。

图2:FaSTrack的目的是使用简化模型(蓝色),但是预先计算一个跟踪误差界,这个跟踪误差界捕捉了由于模型不匹配和环境扰动(例如,风)而导致的所有可能的偏差,以及在这个范围内的一个误差反馈控制器。然后,我们可以通过跟踪误差界来增加我们的障碍,这保证了我们的动态系统(红色)仍然是安全的。在机器人学社区中,增加障碍不是一个新概念,但是通过使用我们的跟踪误差界,我们可以考虑系统的动态和干扰。

离线预先计算

我们通过将问题看作是规划器和跟踪器之间的一种追踪行为,来预先计算这个跟踪错误。规划器使用一个真正的自治系统的简化模型,这是实时规划的必要条件;跟踪器使用了一个更精确的真实自治系统模型。我们假设跟踪器(真正的自治系统)总是在追赶规划器。我们想知道在最坏的情况下,最大的相对距离(即最大的跟踪误差)是什么:当规划器正积极地试图避开跟踪器时。如果在这个边界上有一个上限,那么我们就知道在运行时可能发生的最大跟踪误差。

图3:跟踪系统,采用复杂的真实系统动态跟踪,以一个非常简单的模型进行计划。

因为我们关心的是最大的跟踪误差。因此,为了解决这一问题,我们必须首先确定两种系统之间的相对动态,方法是在原点固定规划器,并确定跟踪器相对于规划器的动态。然后,我们将成本函数指定为该原点的距离,即跟踪器的相对距离,如图4所示。这个跟踪器将尝试把这个成本最小化,并且规划器试图将它最大化。随着时间的推移,我们不断进化出这些最优的轨迹,我们捕捉到了在这段时间内发生的最高成本。如果跟踪器总能最终赶上规划器,那么这个成本就会一直集中在固定成本(fixed cost)上。

聚合的价值函数的最小不变的水平集提供了跟踪误差界的判断,如图5所示。此外,聚合的价值函数的梯度可以创建一个最优的错误反馈控制策略,以便跟踪器能够追赶规划器。我们使用了伊恩米切尔的水平集工具箱和可达性分析来解决这个微分对策(differential game)。关于优化的更详细的解释,请参阅我们最近在2017年IEEE会议上发表的关于决策和控制的的论文。

伊恩米切尔的水平集工具箱:http://www.cs.ubc.ca/~mitchell/ToolboxLS/

论文:https://arxiv.org/abs/1703.07373

图4

图5

在图4,我们展示了价值函数在成本函数上(距离原点)的初始化,并根据微分对策的变化进行展开。在图5,我们应该对这个价值函数进行3D和2D切片。每个切片都可以被认为是“候选的”跟踪误差界”。随着时间的推移,其中一些界限变得不可能继续存在。聚合的价值函数最小的不变水平集为我们提供了最严格的、可行的跟踪误差界。

在线实时规划

在在线阶段,我们在一个给定的感知范围内感知障碍,想象一下带有一个明可夫斯基和(Minkowski sum)的跟踪误差来扩展这些障碍。使用这些填补的障碍物,运动规划器决定它的下一个想要的状态。基于跟踪器和规划器之间的相对状态,跟踪器(自治系统)的最优控制由查找表确定。自治系统执行最优控制,不断地重复工程,直到达到目标为止。这意味着运动规划器可以继续快速的做出规划,并且通过简单的增加障碍和使用查找表来控制是可以确保安全的!

通过元规划减少保守性

在规划器和跟踪器之间制定安全跟踪问题的一个后果是,由此产生的安全追踪通常相当保守。也就是说,如果规划器总是被允许做最坏的行为,跟踪器不能保证它会与规划器接近。一个解决方案是使用多个规划模型,每个规划模型都有自己的跟踪误差。由此产生的“元规划”(meta-plan)由每个规划器计算出的轨迹段组成,每个规划器都用适当的最优控制器来跟踪规划器生成的轨迹。这在图7中得到了说明,蓝色的误差界与一个可以快速移动的规划器相对应,小的红色边界对应于一个移动速度较慢的规划器。

图7:通过考虑两个不同的规划器,每个规划器都有不同的跟踪误差界,我们的算法能够找到一个有保证的、安全的“元规划”,它更喜欢那些不那么精确但速度更快的蓝色规划器,但它会恢复为在障碍附近的更精确但速度较慢的红色规划器。这就产生了一种自然的,直观的行为,最优权衡是将规划器的保守主义和飞行器的机动速度联系起来。

安全转换

实现这一工作的关键是确保规划器之间的所有过渡都是安全的。这可能有点复杂,但主要的思想是,如果我们能保证计算为A的不变集(invariant set)包含在计算为B的不变集中,两个规划器(称之为A和B)之间的过渡是安全的。对于许多成对的规划器来说这是真实的,比如在图7中,从蓝色边界转换到红色边界。但通常情况并非如此。一般来说,我们需要解决一个非常类似于在FaSTrack中的那个原始的动态对策,但我们想知道的是我们永远不会离开的集的状态,并且从这之中我们可以保证我们在B的不变集内部结束。通常,由此产生的安全转换界(SSB)比跟踪误差界(TEB)更大,如下所示。

图8:对于一个大跟踪误差界和小跟踪误差界规划器之间的过渡,安全切换通常比跟踪误差界还要大,如图所示。

高效的在线元规划

为了有效地做到这一点,我们使用了经典RRT算法的改良版。通常,RRT的工作方式是在状态空间中采样点,并将它们与线段连接起来,形成一棵扎根在起始点的树。在我们的例子中,我们将线段替换为单个规划器所产生的实际轨迹。为了找到通往目标的最短路径,我们倾向于那些能够更快地行动的规划器,首先尝试它们,如果更快的那个规划器失败的话,它们只会求助于行动缓慢的规划器。

不过,我们必须小心确保安全的转换界是令人满意的。这对于元规划器决定向更精确、更慢移动的的规划器过渡的情况尤其重要,就像上面的例子一样。在这种情况下,我们实现了一种单步虚拟回溯算法,在此算法中,利用转换控制器能够确保前一段轨迹段不受碰撞。

本文来自企鹅号 - ATYUN订阅号媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

基于深度强化学习的平行企业资源计划

随着社会化和网络化趋势的日益增强, 企业已全面而深度地融入网络环境, 并已演变成为现实物理世界、网络虚拟世界和社会耦合空间的现代新型企业。在以信息技术和网络技术...

2186
来自专栏QQ空间开发团队的专栏

TSR:基于深度学习的超分辨率技术及应用

本技术能够在图片 size 只有原来 25% 的情况下将图片还原到与原图的同等效果,在空间的应用可以节省用户 75% 的流量。

2K4
来自专栏AI科技评论

观点 | 滴滴 AI Labs 负责人叶杰平教授:深度强化学习在滴滴的探索与实践

AI 科技评论按:7 月 29 日,YOCSEF TDS《深度强化学习的理论、算法与应用》专题探索报告会于中科院自动化所成功举办,本文为报告会第一场演讲,讲者为...

663
来自专栏企鹅号快讯

IBM Watson提出人机推理网络HuMaINs,结合人机两者优势

选自arXiv 机器之心编译 参与:刘晓坤、黄小天 人机交互可以用机器的优势弥补人类决策的非理性缺陷。近日,IBM Watson 研究中心联合多家研究机构提出了...

1949
来自专栏ATYUN订阅号

MIT机器学习模型对ICU患者死亡风险的预测更为准确

麻省理工学院的研究人员开发了一种机器学习模型,可以根据健康状况将患者分为亚群,以更好地预测患者在ICU住院期间死亡的风险。该技术优于“全球”死亡率预测模型,并揭...

762
来自专栏架构师之路

从0开始做互联网推荐-以58转转为例

从0开始做互联网推荐【产品+算法+实现】 一、58转转简介 58旗下真实个人闲置物品交易平台 二、从0开始设计推荐产品框架 (1)首页推荐:提取用户画像,根据线...

3427
来自专栏机器之心

前沿 | AI预测地震余震:哈佛大学新研究登上Nature

大地震发生后的数周、数月内,周边地区经常会发生强烈余震,再次损害已经遭受破坏的社区,极大阻碍了恢复重建工作。

743
来自专栏机器之心

观点 | 运行机器学习项目,你需要避开这四个常见错误

选自datanami 作者:Michael Levin 机器之心编译 参与:Ellen Han、微胖 作为机器学习和数据分析的专家,在与不同领域企业合作开发和实...

2685
来自专栏新智元

【魔性】DeepMind教AI玩跑酷,强化学习创造新动作(动图)

【新智元导读】 强化学习(RL)是通过激励系统来教导行为的方法。这是机器学习的一种重要方法,在智能控制机器人和分析预测等领域有许多应用。DeepMind 已经使...

3275
来自专栏大数据挖掘DT机器学习

教你如何用机器学习预测《权利的游戏》中的叛徒

几个月之前,Airbnb发布了一篇博文,在这篇文章中作者向读者介绍了他们的数据科学家建立一个机器学习模型来保护自己的用户免遭来自恶意行为的欺诈危害。如果我们将...

3376

扫码关注云+社区