首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Recurrent Models of Visual Attention

Recurrent Models of Visual Attention

Authors:Volodymyr Mnih Nicolas Heess Alex Graves Koray Kavukcuoglu

Company:Google DeepMind

Abstract

我们提出了一种新颖的循环神经网络模型(recurrent neural network model),它能够通过自适应地选择一系列区域或位置并仅以高分辨率处理所选区域来从图像或视频中提取信息。

内置了一定程度的平移不变性,但可以独立于输入图像大小来控制其执行的计算量。

在图像分类任务上评估模型,它显着优于混乱图像上的卷积神经网络以及动态视觉控制问题,其中学习跟踪简单对象而没有明确的训练信号。

1 Introduction

基于神经网络的体系结构最近在极具挑战性的图像分类和目标检测数据集方面取得了巨大的成功。但是,他们出色的识别准确性在训练和测试时间都会带来高昂的计算成本。尽管输入图像被降采样以减少计算量,但目前通常使用的大型卷积神经网络需要数天时间才能在多个GPU上进行训练。在目标检测处理的情况下,在单个GPU上运行时的测试时间需要几秒钟,因为这些方法有效地遵循来自计算机视觉文献的经典滑动窗口范例,其中分类器经过训练以检测在紧密裁剪的边界框中的对象,在不同的位置和尺度下,独立地应用于成千上万个来自测试图像的候选窗口。尽管可以共享一些计算,但这些模型的主要计算成本来自整个输入图像的卷积滤波映射,因此它们的计算复杂度至少在像素数量上是线性的。

人类感知的一个重要特性是不倾向于一次处理整个场景。 相反,人类有选择地将注意力集中在视觉空间的某些部分,以获取需要的信息,并随时间将不同视角的信息结合起来,形成场景的内部表示,指导未来的眼球运动和决策制定。由于需要处理更少的“pixels”,因此将场景中的部分计算资源集中在一起可节省“bandwidth”。 但它也大大降低了任务的复杂性,因为感兴趣的对象可以放置在固定的中心,固定区域之外的视觉环境(“clutter”)的不相关特征自然被忽略。

人的注视的位置也显示出强烈的任务特定性,在本文中,我们从这些结果中获得灵感,并开发了一种基于注意的任务驱动的神经网络视觉(attention-based

task-driven visual processing)处理框架。 我们的模型认为基于注意的视觉场景处理是一个control problem,通常足以应用于静态图像,视频,或作为与动态视觉环境交互的代理的感知模块(例如机器人,电脑游戏代理)。

这个模型是一个recurrent neural network(RNN),按照时间顺序处理输入,一次在一张图像中处理不同的位置,逐渐的将这些部分的信息结合起来,来建立一个该场景或者环境的动态间隔表示。并非马上处理整张图像甚至bbox,在每一个步骤中,模型基于过去的信息和任务的需要选择下一个位置进行处理。这样就可以控制模型的参数和计算量,使之摆脱输入图像的大小的约束。这里和CNN有明显的不同。我们就是要描述这么一个端到端的优化序列,能够直接训练模型,最大化一个性能衡量,依赖于该模型在整个任务上所做的决策。该过程使用反向传播来训练神经网络组件和策略梯度以解决由于控制问题导致的非差异性。

我们表明,我们的模型可以学习有效的特定于任务的策略,以在哪里查看几个图像分类任务以及动态视觉控制问题。 我们的结果还表明,基于关注的模型可能比卷积神经网络更好地处理杂乱和扩大到大输入图像。

2 Previous Work

例如,对于对象检测,已经做了很多工作来降低广泛的滑动窗口范例的成本:

1. 减少评估完整分类器的窗口的数量,例如, 通过分类器级联。

2.显着性检测器(saliency detectors[11])。

视为顺序决策任务(sequential decision task) 的工作[2,4,6,14,16,17,20],和我们的工作一样,关于图像的信息是按顺序收集的,下一次参加的决定是基于以前的图像固定。 [4]采用[5]学习的贝叶斯观测模型进行物体检测任务。 [5]的学习框架与我们的相关,因为他们也采用了政策梯度公式(参见第3节),但是他们的总体设置比我们的限制性要大得多,只有系统的某些部分被学习。

我们的工作也许与其他在深度学习框架中实施attentional processing最相似[6,14,17]。 然而,我们的公式使用RNN来整合视觉信息,并决定如何行动,但是,我们的学习过程允许对顺序决策过程进行端到端的优化,而不是依赖贪婪的行为选择。

3 The Recurrent Attention Model (RAM)

本文将 attention problem 看做是目标引导的序列决策过程,能够和视觉环境交互。在每一个时间点,agent 只能根据有带宽限制的感知器来观察全局. 他只能在一个局部区域或者狭窄的频域范围进行信息的提取。The agent 可以自主的控制如何布置感知器的资源,即:选择感知的位置区域。该agent也可以通过执行 actions 来影响环境的真实状态。由于该环境只是部分可观察,所以他需要额外的信息来辅助其进行决定如何行动和如何最有效的布置感知器。每一步,agent 都会收到奖励或者惩罚,agent 的目标就是将奖励最大化。

1. Model

Sensor:

在每一个步骤t,该agent 接收部分观察,没有处理全幅图像的权限,但是可以通过感知器 ρ 来提取从xt 得到的信息。假设从 Lt-1 提取的类似视网膜表示 ρ(xt, lt-1) ,该表示比原始图像 x 维度较低,我们称之为glimpse。有一个叫glimpse networkfg 的网络结构包含glimpse sensor来产生glimpse feature vectorgt,像上图B所示。

Internal state:

The agent 保持一个间隔状态,用来总结从过去观察得到的历史信息。The internal state 由RNN的隐单元 ht 构成,随着时间利用core network进行更新,该网络的额外输入是:the glimpse feature vectorgt.

Actions:

每一步,agent 执行两个步骤:

1. 通过感知控制 lt 来决定如何布置感知器;

2. 一个可能会影响环境状态的环境动作 at 。

Reward:

在执行一个action之后,agent会收到一个环境中得到的新的视觉观察 xt+1 和 一个奖励信号 rt+1。在目标识别场景中,如果分类正确,就奖励1分,否则奖励就设置为0.

2. Training

总结下,可以看出整个pipeline 有三个小网络,即:the glimpse network,the core network, andthe action network。我们的训练目标就是学习到一种策略使得总的奖励达到最大。

最大化 J 实际上是不容易的,因为这涉及到高维联系序列的期望,将这个问题看做是 POMDP, 然而,允许我们从RL的技术角度来解决该问题,即:一个样本近似的方法来逼近梯度:

总结:

我觉得作为将强化学习和深度学习结合的先锋者,google deepmind 在这方面做的还算不错,论文的motivation 很自然,具体深度学习流程的设计也是比较合理的

算了,算了,看不懂,不看了。。。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180407G07AWO00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券