CVPR2018 | 直接建模视觉智能体?让「小狗」动起来~

选自arXiv

作者:Kiana Ehsani 等

机器之心编译

参与:Pedro、路

近日,来自华盛顿大学和艾伦人工智能研究所的研究者在 arXiv 上发布论文,介绍了其处理计算机视觉任务的新方法:利用视觉数据直接建模视觉智能体。研究者对狗的相关动作进行建模,在多种度量方式下,对于给定视觉输入,其模型能成功地在各种环境下建模智能体。此外,该模型学得的表征能编码不同的信息,还可以泛化至其他的领域。目前,该论文已被 CVPR 2018 接收。

1. 引言

计算机视觉研究通常集中在一些特定的任务上,包括图像分类、目标识别、目标检测、图像分割等等。这些任务出现,并随着时间的推移逐渐成为视觉智能问题实际应用的典型代表。视觉智能涵盖了许多领域,很难正式地定义或评估。因此,这些代表性任务成为社区重点关注的对象。

本论文作者承认这些计算机视觉研究领域的代表性任务所带来的影响,也赞成对这些基本问题进行持续性的研究。然而,这些代表性任务的理想输出与视觉智能系统的期望功能之前仍然存在差距。这篇论文对视觉智能问题给出了直接的答案。受影响于近期关于行为与互动在视觉理解中作用的研究 [56, 3, 31],本论文研究者将视觉智能问题定义为「理解视觉数据,使得智能体能够在视觉世界中执行动作并解决问题」。在这样的定义下,研究者提出学习像这样的智能体一样在视觉世界里处理问题。

图 1. 研究者解决了三个问题:(1) 模仿狗的行为:根据给出的一系列狗之前的相关行为照片,预测狗接下来的行为动作。(2) 模仿狗的动作规划方式:目的是找出一组动作使狗能从一个给定位置移动到另一给定位置。(3) 利用关于狗的数据来学习:利用学得的知识解决这一问题(例如:预测一个可供行走的地面区域)。

通常情况下,模仿视觉智能体是一个充满挑战并且难以定义的问题。一个动作通常对应一系列包含复杂语义的运动。本论文通过将动作视为其最基本、无语义的形式——简单运动,在模仿视觉智能体方面做出了微小的贡献。

研究者将对狗建模,作为视觉智能体。狗相对人来说,有着更简单的动作空间,使研究变得相对简单。同时,它们能很好地展示视觉智能的特性,例如它们可以分辨食物、障碍、别的动物以及人类,并作出相应的反应输出。然而,它们的目的和动机通常是事先不知道的。因此研究者可以说是在建模一个黑箱。关于这个黑箱系统,我们只知道它的输入和输出。

本论文研究如何基于视觉输入学习模仿狗的行为和动作规划方式。研究者编写了一个以狗为第一人称视角的动作数据集 ( DECADE ),包括以狗为第一人称视角的视频及其对应的运动。为了记录相关的运动,研究者在狗的身体和关节处安装了惯性测量单元 (IMU)。研究者记录了这些装置的绝对位置,然后计算狗的四肢与身体之间的相对角度。

使用 DECADE 数据集,研究者探索了上面提到的三个主要问题 ( 见图 1 ):(1) 模仿狗的行为;(2) 模仿狗的动作规划方式;(3) 将狗的行为动作作为表征学习的监控信号。

在学习模仿狗的行为时,研究者通过观察狗到目前为止的观察结果来预测狗在未来可能的动作(关节屈伸)。在模仿狗的动作规划方式时,研究者解决了预测狗的系列运动动作的问题,这些动作将狗的状态从一个特定状态转变为目标状态。在利用狗作监督时,研究者发现将狗的动作用于表征学习的潜力。

结果是令人欣喜的。研究者的模型可以预测狗在各种场景下的运动(模仿狗的行为),也可以预测狗如何决定从一个状态转化为另一状态(模仿狗的动作规划方式)。除此之外,研究者还展示了根据狗的行为构建的模型也可以泛化至其他的一些任务。更重要的是,在使用狗行为模型为可行走表面预测以及场景识别等任务作预训练之后,这些任务的结果准确率都得到了提高。

图 2. 模仿狗行为的模型架构。该模型是一个编码器-解码器神经网络。编码器接收一系列图像对,解码器输出各个关节的预测动作。编码器和解码器之间有一个全连接层(FC),以更好地捕捉相关域中的变化(从图像变为动作)。在解码器中,每一个时间步的动作输出概率会被传输至下一个时间步。两个 ResNet 塔共享权重。

图 3. 用于模仿狗动作规划方式的模型架构。这个模型结合了 CNN 和 LSTM。模型的输入是两个图像 I_1 和 I_N,它们在视频中相差 N-1 个时间步。LSTM 接收来自 CNN 的特征数据作为输入,然后输出一组能使狗从 I_1 的状态转化为 I_N 的动作(关节屈伸)。

图 4. 用于预测可行走表面的模型架构。研究者使用解卷积和卷积层来增强 ResNet 的最后四层,得出可供行走的表面。

图 5. 定性结果:模型学会了如何执行动作。研究者向模型输入了一个视频的五帧,这五帧中一个男人开始向一只狗扔球。在视频中,这个球撞到墙反弹,而狗转向右边来追这个球。仅仅是使用了视频一开始的五帧,该模型就能精确地预测出狗在球飞过时如何转向右侧的。

表 2. 模仿动作模型的输出结果。研究者输入了视频的前五帧然后预测接下来的五个动作。

表 3. 模仿规划方式模型的输出结果。预测了从开始帧到结束帧之间的动作组。研究者认为从开始的图像转化成结束的图像需要五步。

图 4. 对模型效果的评估。第一列(Angular metric)当中的数值越小越好。第二列(All joints)当中数值越大越好。

论文:Who Let The Dogs Out? Modeling Dog Behavior From Visual Data

论文链接:https://arxiv.org/abs/1803.10827

摘要:我们研究了如何直接建模一个视觉智能体。计算机视觉通常专注于解决各种与视觉智能相关的子任务。我们偏离了处理计算机视觉任务的标准方法,直接对视觉智能体进行建模。我们的模型将视觉信息作为输入并直接预测视觉智能体的动作。为了达成这一目标,我们引入了 DECADE,一个包含以狗为第一人称视角的视频以及相应动作的数据集。利用这样的数据集,我们可以建模狗的行为方式和动作规划方式。在多种度量方式下,对于给定视觉输入,我们能成功地在各种环境下建模智能体。此外,相比用图像分类训练出的表征学习,我们的模型学得的表征能编码不同的信息,还可以泛化至其他的领域。特别是,通过将这种对狗的建模用于表征学习,我们在可行走表面预测和场景分类任务中得到了非常好的结果。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-04-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

有这好事?神经网络模型Word2vec竟能根据个人喜好推荐音乐

? 每一个点代表一首歌。分数越接近,歌曲就越相似 流媒体服务已经改变了我们体验内容的方式。虽然推荐系统以前专注于向用户展示你可能想要购买的内容,但现在的流媒体...

561190
来自专栏新智元

【10亿+数据集,ImageNet千倍】深度学习未来,谷歌认数据为王

【新智元导读】数据重要还是算法重要?一篇新的论文或许给出了答案。使用一个 300 倍于 ImageNet 的新数据集,谷歌研究人员发现,随着数据增长,模型完成计...

43240
来自专栏华章科技

揭开深度学习黑箱:希伯来大学计算机科学教授提出「信息瓶颈」

一个称为「信息瓶颈」的新想法有助于解释当今人工智能算法的黑箱问题——以及人类大脑的工作原理。

10530
来自专栏AI科技大本营的专栏

OpenAI NLP最新进展:通过无监督学习提升语言理解

【AI 科技大本营导读】近日,OpenAI 在其官方博客发文介绍了他们最新的自然语言处理(NLP)系统。这个系统是可扩展的、与任务无关的,并且在一系列不同的 N...

14630
来自专栏AI科技评论

解读 | “数据为王”是真的吗?谷歌轻抚着100倍的数据量点了点头

AI 科技评论按:过去十年里,研究人员在计算视觉领域取得了巨大的成功,而这其中,深度学习模型在机器感知任务中的应用功不可没。此外,2012 年以来,由于深度学习...

35860
来自专栏AI研习社

Arxiv Insights | 克服稀疏奖励的束缚,让智能体在学习中成长

在强化学习的设置中,为了执行一个我们想学习的任务,智能体会应用一些特征提取方案来从原始数据中提取有用信息,然后会有一个策略网络用于提取特征。

19710
来自专栏ATYUN订阅号

剑桥大学开发AI模型,结合视觉与语义信息,研究大脑识别过程

剑桥大学的神经科学研究人员将计算机视觉与语义相结合,开发出一种新模型,有助于更好地理解大脑中物体的处理方式。

11210
来自专栏新智元

【新华网】新算法让机器像婴儿一样学习视觉世界

【新智元导读】 美国科学家日前报告说,他们从人类大脑的学习方式中获得灵感,研发出一种新的“深度学习”算法,可以让机器像人类婴儿一样自主学习视觉世界。 新华社洛杉...

37150
来自专栏机器之心

学界 | MINIEYE首席科学家吴建鑫解读ICCV入选论文:用于网络压缩的滤波器级别剪枝算法ThiNet

机器之心报道 作者:高静宜 近日,南京大学计算机科学与技术系教授、MINIEYE 首席科学家吴建鑫所在团队的一篇论文《ThiNet: 一种用于深度神经网络压缩的...

43380
来自专栏专知

概念理解:通俗的“过拟合与欠拟合”直观解释

【导读】前几天,应用数据科学研究者William Koehrsen发布一篇关于“过度拟合和拟合不足”的博文,作者解释了在模型训练中过拟合与欠拟合的概念与原因,并...

37860

扫码关注云+社区

领取腾讯云代金券