预热 | 英特尔通过预测变量实现策略性强化学习,夺冠 Doom 游戏竞赛(ICLR 2017)

AI科技评论按:ICLR 2017 将于4月24-26日在法国土伦举行,届时AI科技评论的编辑们也将前往法国带来一线报道。在这个深度学习会议举办之前,AI科技评论也将围绕会议议程及论文介绍展开一系列的覆盖和专题报道。

尽管目前强化学习(Reinforcenment learning)已经取得了重大的进展,但是依然存在两个关键性挑战。

  • 一个是在复杂和动态的三维环境下从原生的感觉输入中实现感觉运动控制

(Sensorimotor control),以实现直接从经验中进行学习;

  • 另一个则是获得可以灵活部署以实现大量动态目标任务的通用技能。

来自英特尔实验室(Intel Labs)的两名研究员提出了一种旨在辅助进步的感觉运动控制方法,以克服强化学习的两大挑战。以下为AI科技评论对其论文部分内容的编译。

论文摘要

来自英特尔实验室(Intel Labs)的两名研究员Alexey Dosovitskiy和Vladlen Koltum提出了一种在沉浸式环境中实现感觉运动控制(Sensorimotor control)的方法。据悉,该方法有效地综合利用了高维度的感官流(high-dimensional sensory stream)和较低维度的测量流(lower-dimensional measurement stream)。

  • 图1:网络结构。s表示图像数据,m表示测量,g表示目标。s,m,g首先通过三个输入模块分别进行处理。然后这些输入模块的输出结果将被连接成一个联合表示j。之后联合表示j被送入了两个并行的计算流进行单独处理,这两个计算流分别用于预测测量期望E(j)和归一化动作条件差异。最后两个计算流的输出将被组合到一起以获得针对每个动作的最终预测。

这些流的时间结构提供了丰富的监控信号,这使得可以通过与环境交互的方式训练运动控制模型。该模型通过监督学习技术进行训练,但是没有用到外部监督。它从来自于复杂三维环境的原始感官输入中学习动作。该方案使得模型在训练过程中不用设定固定的学习目标,并且在测试的时候可以探索动态变化的目标。

据悉,研究员们在经典的第一视角游戏——Doom所提供的的三维模拟环境中进行了大量的实验。而实验结果表明,英特尔实验室研究员所提出的方法优于先前提出的其它复杂方法,这一点在具有挑战性的任务中体现得更加明显。实验结果还表明训练好的模型在环境与目标之间具有很好的泛化能力。除此之外,通过该方法训练出来的模型还赢得了Full Deathmatch track of the Visual Doom AI Competition的胜利,该竞赛是在一个对于模型而言完全陌生的环境下举办的。

论文结果展示

  • 图2:展示了来自于四个场景的样例。D1展示了在一个正方形房间里收集医疗包(“Basic”)。D2展示了在迷宫中收集医疗包并且还要避开毒药(“Navigation”)。D3展示了在迷宫中收集医疗包和弹药并同时攻击敌人(“Battle”)。D4展示了在一个更加复杂的迷宫中收集医疗包和弹药并同时攻击敌人(“Battle 2”)。
  • 图3:不同方法在训练中的表现。DQN,A3C和DFP在基础的场景中都取得了类似的表现结果。但是DFP在其它三个场景中取得的表现结果都超过了另外三个方法。并且在最复杂的两个场景下(D3与D4),DFP的表现结果远远优于另外三个方法。

ICLR评论

ICLR委员会最终决定

评价:这篇论文详细介绍了作者在VizDoom竞赛中获胜的方法。这是一种预测辅助变量的策略性强化学习方法,并且使用了内在动机。同时该方法也是通用价值函数的一种特殊情况。该方法事实上是其它不同策略的一个集合,但是它产生了令人印象深刻的实验结果,并且论文也写的很清晰。

决定:接受(Oral)

令人信服的经验驱动成果

打分:7分:好论文,接受

评价:深度强化学习(在强化学习算法中使用深度神经网络进行函数近似)在解决大规模状态空间下的强化学习问题中已经取得了许多的成功。而这种经验驱动的工作正是建立在这些方法的基础之上进行的。这篇论文介绍了一种新颖的算法,该算法在原生感觉数据(Raw sensory data)的全新3D环境中表现得更好,并且能在目标和环境之间获得更好的泛化能力。值得注意的是,该算法可是Visual Doom AI竞赛的获胜者。

(没有标题)

打分:8分:在所有被接受的论文中排前50%,确定接受

评价:本文提出了一种具有附加辅助内在变量的策略深度强化学习方法。

  • 该方法是一种基于通用价值函数方法的特殊例子,并且作者也在引用中标注出了正确的参考。也许这篇文章最大的技术贡献是提炼了许多现有的方法来解决3D导航问题。我认为论文的贡献应该在摘要中更加详细地论述出来。
  • 我本来希望看到该方法的失败模式。就是在什么情况下该模型会出现改变目标的问题?并且因为这是一种策略性的方法,所以还存在其它的概念问题。比如,如果算法中的代理不在过去的目标上反复进行训练的话,将会出现灾难性的遗忘。
  • 由于本文的主要贡献是整合了几个关键思想并且展示了经验的优势,所以我还希望看到其它领域的测试结果,比如Atari(也许使用ROM作为内在变量)。

总而言之,我认为这篇论文确实展现了利用所提出的潜在公式的明显经验优势,并且本文的实验见解可能对未来的代理研究具有价值。

(没有标题)

打分:8分:在所有被接受的论文中排前50%,确定接受

评论:这篇论文提出了一种策略性方法来预测未来的内在测量。所有的实验都是在名为Doom(更准确来说是vizDoom)的这款游戏上展开的。与一般性地预测游戏输赢或者是游戏得分不同,本文的作者训练了模型来预测一系列的三元组(健康,弹药,得分),并且由作为输入提供的一系列“目标”三元组加权。改变目标三元组的加权是执行/指导探索的一种方式。在测试期间,只能通过最大化长期目标来实现代理的行动。

这个结果令人印象深刻,因为该模型赢得了2016年vizDoom大赛。并且本文的实验部分看起来很合理:

  • 实验中包含了DFP与A3C、DQN方法的比较,而且也尝试了同DSR方法(与本文相类似的一种方法,由Kulkarni等人在2016年提出)进行比较。DFP方法在各个实验中都超越(或者至少也是持平)了其它方法。
  • 有一项消融研究(Ablation study)能够证明文中所有对模型“增加复杂性”的做法都是有效的。

预测内在动机(Singh et al. 2004)、辅助变量和前向建模都是强化学习中有着较好研究成果的领域。我阅读的那个版本(12月4日修订版)中充分参考了以前的工作,虽然还没有做到非常全面。

我认为这篇应该被接受。可能有些人认为该论文的实验可以在不同的环境下进行或者新颖性有限,但是我认为这篇“正确的”并且“里程碑式的”论文应该得到发表。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-04-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算

神经网络开始放飞自我!都是因为架构搜索新算法

雷锋网:雷锋字幕组出品系列短视频《 2 分钟论文 》,带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。 雷锋网本期论文:结合分层表示的高级架构搜索...

2528
来自专栏智能算法

深度学习如何调参?

对于深度学习本人也是半路出家. 现在的工作内容主要就是使用CNN做CV任务. 干调参这种活也有两年时间了. 我的回答可能更多的还是侧重工业应用, 技术上只限制在...

884
来自专栏机器之心

学界 | 批训练、注意力模型及其声纹分割应用,谷歌三篇论文揭示其声纹识别技术原理

4436
来自专栏AI科技评论

动态 | 如何让无人机灵活穿越满是障碍的房间?训练一个循环神经网络试试看

如今,深度学习已经在语音识别、计算机视觉等多个应用领域取得了重大突破。然而,要说到它在机器人领域的发展,那就要另当别论了——深度学习在机器人领域,不仅发展速度慢...

3449
来自专栏AI科技评论

深度 | 微软亚洲研究院刘铁岩博士:迎接深度学习的“大”挑战(下)

AI科技评论按:本文根据刘铁岩博士在中国人工智能学会AIDL第二期人工智能前沿讲习班*机器学习前沿所作报告《迎接深度学习的“大”挑战》编辑整理而来,发文前已得到...

35310
来自专栏机器之心

学界 | 斯坦福提出高速视频目标检测系统NoScope:速度超现有CNN上千倍

选自Stanford University 作者:Daniel Kang 等 机器之心编译 参与:熊猫 卷积神经网络在目标检测任务上已经取得了优良的表现,但它们...

3577
来自专栏量子位

从此,激光雷达和摄像头,就是一个东西了?

最近几年,放在摄像头上的深度学习研究,发展很蓬勃。相比之下, 激光雷达 (LiDAR) 身上的学术进展并不太多。

2952
来自专栏新智元

AI新星 | 谷歌朱梦龙:从COCO物体检测冠军到MobileNet

【新智元导读】在谷歌研究院工作是一种怎样的体验?新智元近日专访了谷歌研究员朱梦龙,他作为谷歌团队G-RMI的核心成员,从去年9月开始一直盘踞在COCO的物体检测...

34311
来自专栏华章科技

揭开深度学习黑箱:希伯来大学计算机科学教授提出「信息瓶颈」

一个称为「信息瓶颈」的新想法有助于解释当今人工智能算法的黑箱问题——以及人类大脑的工作原理。

733
来自专栏EAWorld

拥抱人工智能,从机器学习开始

自“阿尔法狗”(AlphaGo)完胜人类围棋顶尖高手后,有关人工智能(AI)的讨论就从未停歇。工业4.0方兴未艾,人工智能引领的工业5.0时代却已悄然苏醒。人工...

1203

扫码关注云+社区