专栏首页计算机视觉战队CVPR2019满分文章 | 强化跨模态匹配和自监督模仿学习(文末源码)

CVPR2019满分文章 | 强化跨模态匹配和自监督模仿学习(文末源码)

首先,祝贺我党在3月成功举行了“两会”,希望我党越来越强大。在接下来将会有好几场关于IEEE会议,也会着重指向接下来人工智能的发展风向标,有兴趣的同学可以持续关注。

今天,“计算机视觉战队”给大家带来的是CVPR2019会议上几乎满分paper,那我们就开始一起学习吧!

简 介

深度学习发展迅速,很多技术已经落实到具体产品,给我们生活带来了很多方便,未来会越来越多的技术实现,实现人类第四次人工智能革命。

今天说的就是一个导航技术——视觉-语言导航(Vision-language navigation,VLN),其任务就是指在真实的三维环境中让具有实体的智能体进行导航并完成自然语言指令。

今天讲的这个技术,主要解决了三个挑战性问题:1)跨模态参照;2)糟糕的反馈;3)泛化问题。

首先,提出了一种新的强化跨模态匹配(RCM)方法,它可以通过强化学习的方式同时促进局部和全局的跨模态参照,具体就是使用了一个匹配指标,它成为了鼓励模型增强外部指令和运动轨迹之间匹配的固有反馈,模型也用了一个推理导航器,它用来在局部视觉场景中执行跨模态参照。

在一个VLN benchmark数据集上进行的评估结果表明,提出的RCM模型大幅超越已有模型,SPL分数提高了10%,成为了新的SOTA。

之后,为了提高学习到的策略的泛化性,进一步提出了一个自监督模仿学习(SIL)方法,通过模仿自己以往的良好决策的方式探索未曾见过的环境。

在此,作者们表明了SIL可以逼近出更好、更高效的策略,这极大程度减小了智能体在见过和未见过的环境中的成功率表现的差别(从 30.7% 降低到 11.7%)。

Model

导航πθ是一个基于策略的代理,把输入X映射在一系列行为指令。在每一个步骤中,导航器从环境接收一个状态st(视觉场景),并需要在本地可视场景中接收文本指令。因此,设计了一个跨模态推理导航,它可以在序列学习轨迹历史、文本指令的重点和局部显著性,从而形成一个跨模态推理路径,以鼓励两种模态在步骤t处的局部动力学。

上图显示了在时间步骤t展开版本的导航器。为导航器配备全景,将m个不同的视角分为图像块,所以全景特征从视觉状态St提取的可以表示为{vt,j}j=1, vt,j表示图像块在视角j的预训练CNN特征。

History Context

一旦导航器运行一步,视觉场景就会相应地发生变化。轨迹τ1:t的历史到步骤t由一个基于注意力机制的轨迹编码器LSTM编码为历史文本:

请注意,后面采用的是都是点积注意力,将其表示为如下,(以上面的视觉特性为例):

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008, 2017.

Visually Conditioned Textual Context

记忆过去可以使人们认识到当前的状态,从而理解下一步应该关注的单词或子指令。因此,进一步学习了以历史上下文为条件的文本。让语言编码器LSTM将语言指令x编码成一组文本特征{wi}ni=1。然后,在每个时间步骤,文本被计算为:

Textually Conditioned Visual Context

要知道在哪里需要动态理解语言指令,因此基于文本上下文计算视觉上下文,如下:

Action Prediction

最后行为预测器考虑历史上下文ht、文本上下文ct和视觉上下文cvisual,并在此基础上决定下一步的方向。它使用双线性点积计算每个可导航方向的概率Pk,如下所示:

Cross-Modal Matching Critic

除了来自环境的外部奖励信号之外,还导出了匹配评论vβ提供的内在奖励,以鼓励语言指令x与导航器πθ的轨迹之间的全局匹配:

因此,采用一种基于注意的序列到序列语言模型作为匹配评论vβ,用轨迹编码器对轨迹τ进行编码,并给出用语言译码器生成指令x中每个字的概率分布。因此内在的回馈:

Learning

Self-Supervised Imitation Learning

最后一部分介绍了通用视觉语言导航任务的RCM方法,该方法的标准设置是在可视化环境中训练Agent,在未见环境中进行测试。在本节中,我们将讨论一个不同的设置,其中允许代理在没有地面真相演示的情况下探索不可见的环境。这是有实际好处的,因为它有利于终身学习和适应新环境。

为此,提出了一种自我监督的模仿学习(SIL)方法来模仿Agent自身过去的好决策。如上,给定一个自然语言指令x,没有成对的演示和GT目标位置,导航器生成一组可能的轨迹,存储最佳轨迹,其通过评论vβ匹配到一个replay buffer中确定的,公式如下:

匹配的评论之前介绍的循环重建奖励来评估轨迹。然后,在replay buffer中利用好的轨迹,Agent确实在自我监督下优化了以下目标。目标位置未知,因此不受环境的监督。

实验及结果

在R2R测试集上的结果

已见和未见验证集的研究结果

可见和未见验证集上的可视化

上图:左:出了门,向左转向楼梯,一路走上楼梯,在楼梯顶上停下来;右:右转下楼梯,左转,一直走到洗衣房,在那儿等着。

特别是,上面的两个例子,两者都具有很高的内在回报。在(A)中,Agent成功地到达了目标目的地,对自然语言教学有了全面的理解;而在(B)中,内在回报也很高,这表明了主体的大部分行为都是好的,但也值得注意的是,在结束时,Agent没有认出洗衣房,这说明了在导航任务中,更加精确的视觉基础训练的重要性。

本文分享自微信公众号 - 计算机视觉战队(ComputerVisionGzq),作者:Edison_G

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 谷歌——DeepLab v1

    临近中国的春节,Google 团队也不休假,趁着中国人每年一度大迁徙,他们在 arXiv 放出了 DeepLabv3+,在语义分割领域取得新的 state-of...

    计算机视觉研究院
  • 近期人脸对齐的实证性研究

    本次推送参考文献《An Empirical Study of Recent Face Alignment Methods》 ? 人脸对齐方法的发展具有以下5个里...

    计算机视觉研究院
  • AI魔幻行为大赏:细数机器视觉的9大应用场景

    导读:本文主要介绍了机器视觉的主要应用场景,目前绝大部分数字信息都是以图片或视频的形式存在的,若要对这些信息进行有效分析利用,则要依赖于机器视觉技术的发展,虽然...

    计算机视觉研究院
  • 三维重建方法

    最近在看三维重建方面的论文,进行一下知识总结。 三维重建技术 三维重建技术就是要在计算机中真实地重建出该物体表面的三维虚拟模型,构建一个物体完整的三维模型,大致...

    武培轩
  • 机器人啥都能干的话,人还用的着学习吗?

    AI技术给我们带来的不仅是诱惑,还有恐慌。 就像过去发生的每一次技术革命一样,面对生产领域和社会关系即将发生的变化,人类总会有些进退两难。 我们该以何种心态...

    AI科技大本营
  • 未来世界中怎样保住人类的饭碗?| 皮尤研究中心95页报告

    李杉 编译整理自 《纽约时报》 量子位 报道 | 公众号 QbitAI 我们不知道机器能在多短的时间内取代人类的工作,也不知道它们能取代多少工作,但我们知道,这...

    量子位
  • 如何使用 React 构建自定义日期选择器(1)

    在 web 上经常看到包含一个或多个日期的表单。无论是出生日期还是航班时间表日期,您总希望用户能够提供了有效的日期。

    IMWeb前端团队
  • 计算机视觉简介:历史、现状和发展趋势

    来源:中国科学院自动化所机器视觉课题组 【导读】本文由中国科学院自动化研究所模式识别国家重点实验室胡占义研究员撰写,对计算机视觉40多年的发展历程进行了简要总结...

    WZEARW
  • 一个狠招|如何高效学习3D视觉

    有的读者可能对于计算机视觉中2D和3D视觉的区别仍然较为模糊,此处根据某篇论文中的解释,介绍如下:

    OpenCV学堂
  • 计算机视觉(及卷积神经网络)简史

    尽管计算机视觉近期突然兴起(重大突破时刻发生在2012年,那时AlexNet网络赢得ImageNet的冠军),它确实不是以一个新的科学领域。

    AI研习社

扫码关注云+社区

领取腾讯云代金券