CVPR 2020 | 视觉-语言导航新篇章：真实场景下的远程物体定位导航任务

AI科技评论

发布于 2020-03-20 10:37:24

1.6K0

发布于 2020-03-20 10:37:24

文章被收录于专栏：AI科技评论

本文介绍的是CVPR 2020上录用为Oral的论文《REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments》（已开源），这篇论文是由澳大利亚阿德莱德大学吴琦老师V3A课题组的博士后齐元凯，与佐治亚理工，加州大学圣塔芭芭拉分校合作完成。

文 | 齐元凯

编 | 贾伟

论文地址：https://arxiv.org/abs/1904.10151

数据代码地址: https://github.com/YuankaiQi/REVERIE

1 动机

一个10岁的儿童有很大可能完成“给我拿个抱枕”这样的命令，即使是在一个陌生的环境中。然而，机器人完成这样的任务却十分困难，因为机器人还不能像人那样从熟悉的环境中学习大量的知识并加以运用，比如抱枕通常在沙发上，沙发通常在起居室，而起居室通常通过走廊和其他房间相连。此外，人类还可以理解指令，并将他们与视觉感知关联起来。

为了让机器人具有这样的能力，更灵活、准确地与人类交互，促进真实环境下视觉-语言相关的研究，我们提出了远程物体定位任务 REVERIE：Remote Embodied Visual referring Expression in Real Indoor Environments.

图 1 REVERIE任务示例

图1给出了该任务的一个示例，机器人被随机放置在一个位置，然后给予一个与远处物体相关的指令，如‘Bring me the bottom picture that is next to the top of stairs on level one’，机器人需要根据该指令和感知的视觉图像，找到该指令所指定的目标物体。值得注意的是，

1）目标物体在起点是无法被观测到的，这意味着机器人必须具有常识和推理能力以到达目标可能出现的位置。

2）在当前阶段，我们仅要求机器人找到目标物体（如给出目标物体在视觉感知图像中的边框，或者在一系列候选物体中选出目标物体），因为即使看似如此简单的任务已经充满挑战性。

与其他的基于视觉和语言的任务不同，如Vision-and-Language Navigation (VLN)[1]、Embodied Question Answering (EQA)[2]，REVERIE衡量任务完成情况主要根据是否找到了目标物体，而VLN则是根据是否到达了目的地点，EQA根据是否回答了问题。因此，REVERIE更加清晰地反映了机器人需要理解语言、逻辑推理、图像物体定位等能力的必要性。

此外，REVERIE中简洁的语言指令充分模拟了真实世界中人类使用家政机器人的场景。这些简洁的指令也使得REVERIE任务与使用详细繁杂导航指令VLN任务[1]区分开来，并将推进高层次视觉-语言推理的研究和机器人的广泛应用。相对Referring Expression任务[3]来讲，REVERIE任务更加复杂，抛开REVERIE任务需要首先导航到正确位置，即便机器人到达了正确的地点，它仍需要环顾四周，从全景图像的所有物体中找到与语言描述一致的目标物体，而Referring Expression只需要在一张图像中找出文字语言所描述的物体。

我们收集的REVERIE数据集建立在Matterport3D数据集[4]及其R2R仿真器[1]的基础之上，二者提供了从真实世界采集的室内全景图像以及可导航点的联通图。为了提供物体级别的信息，我们扩展了R2R仿真器，使其可以提供物体在不同观测点的边框。REVERIE数据集总共21,702条人工标注的自然语言指令，平均长度18个单词，涉及了86个建筑的10,318个位置的全景图像，涵盖了4,140个目标物体。表1展示了若干收集的指令示例，包含了丰富的语言现象，如高度抽象概括（例1中的fishing theme）、物体间的空间关系（例3）、疑问句式（例6）、祈使句（例9）、指代关系（例10）等。

表 1 REVERIE自然语言指令示例

为了调研该任务的难度，我们尝试将前沿的导航算法和图片物体定位算法结合起来，前者负责导航，后者负责导航结束时选取与语言指令最相符的物体。实验结果表明，直接拼接两类算法取得的效果较差。随后，我们提出了一种导航和物体定位交互的模型，作为该任务的一个强基础性算法。我们也提供了人类完成这个任务的成功率，结果表明目前的算法远远落后于人类表现。因此，该方向具有较大的研究价值和提升空间。

2 数据集简介

REVERIE数据集共包含21,702条人工标注的自然语言指令，涉及1,600多个词汇。指令的平均长度为18个单词。与平均长度29个单词的R2R数据集相比，我们的指令更简洁、自然，也因此更具有挑战性。整个数据集包含4,140个目标物体，覆盖489个类别，接近ReferCOCO数据集的6倍。

图 2 指令长度分布（左），物体数量分布（右）

图2左图展示了指令的长度分布。可以看出，大部分指令具有10～22个单词。最短的指令只有3个单词，如‘flush the toilet’。图2右图展示了指令中涉及的物体数量分布，可以看出，56%的指令提及了3个或以上的物体，28%的指令提及了2个物体，15%的数据提及1个物体。

图 3 指令词云（左）目标物体词云（右）

图3以词云的形式展示了指令中不同单词出现频率的相对大小，以及目标物体中各类物体出现的相对频率（字体越大，占比越高）。可以看出，与导航相关的词汇人们倾向于使用‘go’，目的物体以‘picture’居多。

数据集划分：数据集划分为训练、验证和测试三部分，每部分划分与R2R数据集保持一致。这为后续工作同时利用R2R中详细的导航指令以及本工作的简洁指令提供支持。具体来说，训练集合涉及60个建筑物，10,466条指令，2,353个物体。验证集涉及56个建筑物，953个物体，4,944条指令。验证集中10个建筑物，3,521条指令，513个物体未出现在训练集中。测试集共6,292条指令，涉及834个物体，16个建筑物。测试集的数据未出现在训练集或验证集中。

3 方法

我们发现简单的将前沿的导航算法与图片物体定位算法结合起来并不能在REVERIE任务上取得很好的效果（参见实验结果部分）。为此，我们提出了一个导航和物体定位互动算法。图4展示了算法的主要组成和流程。

图 4 Interactive Navigation-Pointer 模型

首先，物体定位模块Pointer以当前位置的视觉感知图像和自然语言指令为输入，计算并返回与指令最相符的3个物体。这3个物体的视觉特征和类别标签用作导航模块Navigator的输入。同时，Navigator也以语言指令和当前位置的感知图像为输入。由Navigator输出停止或下一个前进的方向。如果Navigator输出停止，则当前步Pointer返回的与语言指令最相似的物体为最终输出结果。

在我们的方法中，我们选取了性能优异的导航算法FAST[5]为Navigator，以MAttNet[6]为Pointer。这两个算法均在我们的数据集上进行重新训练。算法细节请参见我们的论文。

实验结果

评价准则：

REVERIE任务采用Remote Grounding Success (RGS) rate作为主要的评价准则，它是成功找到目标物体的任务数与总任务数的比值。而是否成功找到物体有两种评价方法：

1）如果Pointer从模拟器提供的若干候选物体中进行选择，则选出正确的物体为成功。

2）如果Pointer从物体检测器提供的候选物体中进行选择，则预测输出的边框与真实边框的交并比不小于0.5视为成功。

目前，我们采用模拟器提供候选物体的方式进行测评（该设定下，RGS已经非常低）。此外，我们也对导航性能进行评测，主要采用了R2R数据集中的成功率(Success Rate)、路径长度加权(SPL)的成功率等指标。需要注意的是，在REVERIE任务中，如果停止的位置离目标物体3米之内，即视为导航成功。

对比算法：

我们对比了8个算法，他们的工作流程均为先导航，导航结束后使用与我们的算法相同的Pointer找出与指令最相似的物体。这8个算法中包括4个Baseline（Random、Shortest、R2R-TF、R2R-SF）和3个前沿导航算法（RCM、SelfMonitor、FAST-short）以及在该任务上表现最好的前沿算法的一个变种（FAST-Lan-Only，仅输入语言指令到FAST-short中）。

Baseline中Shortest表示假设机器人已经到达目的地，由Pointer返回预测的物体，相当于测试Pointer的准确度。

结果分析：

表2展示了主要实验结果。可以看到随机算法的成功率不到1%，这表明REVERIE任务具有非常大的解空间。

表 2 REVERIE实验结果

R2R-TF和R2R-SF的性能比Random在Val Seen上稍好些，但在Unseen场景下成功率仅有2%左右。Shortest展示出我们选用的Pointer在Unseen场景下最高可以达到50%左右的成功率。

另一方面，前沿导航算法（如FAST-short）在Val Seen上取得了30%左右的成功率，但是在Unseen场景下最高只有7%的成功率。FAST-Lan-Only在ValSeen场景下比FAST-short成功率大幅下降，这表明视觉信息对完成该任务具有重要的作用。

二者在Unseen场景下差异较小主要是因为成功率都处于较低的位置。最后，我们的算法相对前沿算法有所提高，在Unseen场景下取得了11%的成功率，但是离人类的成功率77.84%仍有很大差距。这表明该任务具有较大的探索空间。

参考文献

[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S¨underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.

[2] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, and Dhruv Batra. Embodied question answering. In CVPR, pages 1–10, 2018.

[3] Sahar Kazemzadeh, Vicente Ordonez, Mark Matten, and Tamara Berg. Referitgame: Referring to objects in photographs of natural scenes. In EMNLP, pages 787–798, 2014.

[4] Angel X. Chang, Angela Dai, Thomas A. Funkhouser, Maciej Halber, Matthias Nießner, Manolis Savva, Shuran Song, Andy Zeng, and Yinda Zhang. Matterport3d: Learning from RGB-D data in indoor environments. In 3DV, pages 667–676, 2017.

[5] Liyiming Ke, Xiujun Li, Yonatan Bisk, Ari Holtzman, Zhe Gan, Jingjing Liu, Jianfeng Gao, Yejin Choi, and Siddhartha S. Srinivasa. Tactical rewind: Self-correction via backtracking in vision-and-language navigation. In CVPR, pages 6741–6749, 2019.

[6] Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu, Mohit Bansal, and Tamara L. Berg. Mattnet: Modular attention network for referring expression comprehension. In CVPR, pages 1307–1315, 2018.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-03-18，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

机器人

NLP 服务

本文分享自 AI科技评论微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

机器人

NLP 服务

登录后参与评论

0 条评论

热度