前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICLR 2018 | CMU提出新型智能体定位方法:「主动神经定位器」

ICLR 2018 | CMU提出新型智能体定位方法:「主动神经定位器」

作者头像
机器之心
发布2018-05-10 11:55:18
6700
发布2018-05-10 11:55:18
举报
文章被收录于专栏:机器之心机器之心

选自arXiv

作者:Devendra Singh Chaplot等

机器之心编译

参与:Jane W、路雪

日前,ICLR 2018 接收论文名单公布,CMU 教授 Ruslan Salakhutdinov 等人的论文《Active Neural Localization》名列其中。该论文提出了一种新型智能体定位方法:主动神经定位器(Active Neural Localization),结合传统基于过滤的定位方法和策略模型,实现准确定位并最小化定位所需的步骤数量。

引言

定位(localization)是在给出环境地图和智能体观测的情况下估计智能体位置的一类问题。智能体需要具有在不确定的情况下进行定位的能力,以执行多种下游任务,如规划(planning)、探查(exploration)和目标导航(targetnavigation)。定位被认为是移动机器人最基础的问题之一(Cox & Wilfong, 1990; Borenstein et al., 1996)。定位在很多现实应用中非常有用,例如自动驾驶汽车、工业机器人和快递无人机。

本论文解决了智能体初始位置未知时的全局定位问题。尽管全局定位的研究历史很长,但它仍然是一个开放性问题,目前还没有多少方法可以通过端到端的方式从数据中学习,大多数方法通常需要领域专家进行重要的手动调整和特征选择。目前大多数定位方法的另一个局限是它们是被动的,即它们基于收到的观测流被动地估计智能体的位置,且没有能力决定智能体所采取的动作。决定智能体动作的能力可带来更快更准确地定位,因为 智能体可学习快速导航至环境中的明确位置。

论文提出「主动神经定位器(Active Neural Localizer)」,这是一个能够使用基于像素的原始观测和环境地图进行主动定位的神经网络模型。该模型基于贝叶斯过滤算法进行定位(Fox et al., 2003),包含一个用于估计智能体观测似然度的感知模型、一个表示信念(belief)、具备乘法相互作用(multiplicative interaction)的结构化组件(用于传播信念),以及一个基于当前信念的策略模型(用于准确定位并最小化定位所需的步骤数量)。整个模型完全可微,并且使用强化学习进行训练,从而以端到端的方式同时学习感知模型和策略模型。论文作者使用多种 2D、3D 仿真环境来测试该模型。结果表明,主动神经定位器不仅能够泛化至同一个域中的未知地图,还能够泛化至跨域未知地图。研究者还提供了全新的模拟场景,为未来的主动定位研究做准备。

图 1:论文提出的模型架构。感知模型计算当前观测值在所有可能位置的似然度。智能体位置的信念和似然度通过逐元素点积随时间进行传播。策略模型学习一个能准确定位的策略,同时最小化定位所需的步骤数量。

模型构成部分

感知模型

感知模型根据智能体的观测结果和地图信息中给出的状态来计算特征表征。地图信息中每个状态的似然度通过计算智能体观测的特征表征和该状态的特征表征的余弦相似度(cosine similarity)得到。余弦相似度通常用于计算表征的相似性(Nair & Hinton, 2010; Huang et al., 2013),并已经被用于文本定位中(Chaplot et al., 2016)。Chunjie 等人(2017 年)强调了余弦相似度相对于点积的优势。

在 2D 环境中,观测被用来计算 one-hot 向量,one-hot 向量的维度与表示深度(可直接用作特征表征)的维度相同。得到的似然图(Likelihood map)对所有具有观测深度的位置都具有统一的非零概率,而其它位置都具有零概率。对于 3D 环境,每个观测的特征表征使用可训练的深度卷积网络获取(LeCun et al., 1995)。图 2 是在 2D 和 3D 环境下智能体的观测和计算出的对应似然图的示例。

策略模型

策略模型基于智能体当前信念给出下一个动作的概率。它使用强化学习进行训练,具体来说,它使用的是 Asynchronous Advantage Actor-Critic(A3C)算法(Mnih et al., 2016)。用于预测策略和价值函数(value function)的方法是叠加信念地图(belief map)与地图设计矩阵(map design matrix),先穿过两个卷积层,然后穿过一个全连接层。策略和价值损失使用智能体观测到的奖励(reward)进行计算,然后反向传播通过整个模型。

图 2:在不同域中的地图设计、智能体观测和对应的似然图。在二维域中,智能体的观测为第一个障碍前智能体前方的所有像素。在三维域中,智能体的观测为智能体以第一人称视角看到的图像。

表 1:二维环境下的结果。「Time」指使用对应方法评估 1000 episode 所需的秒数,「Acc」指 1000 episode 之后的准确率。

表 2:三维环境下的结果。「Time」指使用对应方法评估 1000 episode 所需的秒数,「Acc」指 1000 episode 之后的准确率。

图 4:在 Maze3D 三维迷宫环境中的策略执行和信念传播的例子。

上图中,每行分别显示一个 episode 中连续的时间步。每列分别显示智能体观测、观测之前和观测之后基于位置的信念、地图设计和智能体观察世界的视角。智能体的真实位置也标记在地图设计中(但是智能体自己看不到)。信念地图显示在特定位置的概率,颜色越深代表概率越高。智能体对自己方位的信念和真实的方位也用颜色突出显示。例如,红色信念地图显示智能体在 x-y 坐标面向东的概率。注意地图设计不是信念地图的一部分,它被叠加在信念地图上以获得更好的可视化效果。在所有时间步中,所有与智能体视角相似的位置在信念地图中具有高概率。这个例子表明定位时动作决策的重要性。在 t=3 时,智能体对自己位置不是很确定,因为有 4 个具有相同视角的位置。智能体执行最优动作组合来降低不确定性,向前并左转,从而成功定位。

论文:Active Neural Localization

论文链接:https://arxiv.org/abs/1801.08214

摘要:定位是在给出环境地图和智能体观测的情况下估计智能体位置的一类问题。就所需步骤数量来看,传统的定位方法(过滤基于观测的信念)并非最优,因为它们不进行智能体动作的决策。我们提出「主动神经定位器」(Active Neural Localizer),一个可以完全微分并能够准确高效地学习定位的神经网络模型。该模型包含了传统的基于过滤的定位方法思想(通过使用一个具有乘法相互作用(multiplicative interaction)的结构化状态信念来传播信念),同时将其与策略模型相结合,以准确定位并最小化定位所需的步骤数量。主动神经定位器通过端到端的强化学习进行训练。我们使用了多种仿真环境来测试该模型,包括二维迷宫、Doom 游戏引擎中的随机迷宫和虚幻游戏引擎(Unreal)中的拟真(photo-realistic)环境。在二维环境中的测试结果表明在理想设置下习得策略的有效性,而在三维环境中的测试结果表明,模型具备从基于 RGB 的原始像素观测中同时学习策略模型和感知模型的能力。实验还表明在 Doom 环境下基于随机纹理训练的模型能够很好地泛化至虚幻引擎中的拟真办公空间环境。

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-02-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档