学界 | 让好奇心驱动人工智能:UC Berkeley提出自监督预测算法

选自arXiv

作者:Deepak Pathak等

机器之心编译

参与:李泽南

无监督学习一直被认为是让人工智能在真实世界中有效工作的研究方向,此前大多数研究都会在训练时为人工智能加入奖励机制以明确目标。UC Berkeley 最近发表的论文提出了一种更为先进的方式,研究人员称这种「好奇心驱动」的人工智能算法不需要奖励机制就能学会如何进行《超级马里奥兄弟》和《Doom》两种游戏,并能达到超越以前方法的表现。该论文已被将于 8 月 6 日召开的 ICML 2017 大会接收。

  • 论文链接:https://arxiv.org/abs/1705.05363
  • 展示页:https://pathak22.github.io/noreward-rl/
  • 代码 GitHub:https://github.com/pathak22/noreward-rl

论文:Curiosity-driven Exploration by Self-supervised Prediction

在很多现实世界场景中,对于外部人工智能代理(agent)完成任务的奖励是稀疏的,有时甚至完全不存在。在这种情况下,好奇心可以成为人工智能算法内在的回报信号,让代理可以探索环境并学习可能「终身受用」的技能。在本研究中,我们将好奇心构型,作为人工智能代理在动态环境中自我监督学习时预测自身行动结果造成的错误。我们的方法适用于图像这样的高维连续状态空间,跳过直接预测图像困难的问题,也大量忽略了不能影响代理的环境情况。我们提出的方法在两种环境中进行了评估:VizDoom(一种基于视频游戏《Doom》的人工智能研究平台)和《超级马里奥兄弟》。评估主要研究三个方面:1. 稀疏的外部奖励,这样好奇心将在达到目标的过程中占据重要位置;2. 没有外部奖励的探索,在这种情况下好奇心会推动代理进行更有效的探索;3. 全新的环境(如一个游戏的新关卡),在这种情况下此前获得的经验可以帮助人工智能快速上手。

视频内容

图 1.UC Berkeley 的研究人员提出了内部好奇心构型

好奇心可以帮助人工智能代理在缺乏奖励的情况下探索环境。研究人员提出的内在模型(ICM)是与代理策略共同学习的,甚至不需要任何环境中的奖励。上图为模型结构解读。

图 3. 人工智能在 VizDoom 的 3D 环境中获得的输入:(a)常规 3D 导航情形;(b)在输入中加入噪音。

图 4. VizDoom 的 3D 环境地图

图 4 中,(a)对于泛化实验,地图中的环境只进行了无环境奖励的好奇心预训练。S 点代表起始点。(b)在 VizDoom 中的测试地图,绿星表示目标位置,蓝点表示代理在「密集」奖励例子中生成的 17 个地点。Room 13 和 17 是代理在「稀疏」和「非常稀疏」例子中起始的位置。注意:测试和训练地图的条件略有不同。

图 5. 以没有好奇心机制的 A3C 人工智能代理(蓝线)作为基准,对比有图像空间好奇心 ICM 的代理(绿色)和 A3C+ICM 代理(橙色)。

任务难度从左向右逐渐增加,初始点和目标位置越来越远,探索也变得越来越困难:「密集」、「稀疏」到「非常稀疏」奖励。结果表明,对于 A3C 而言,后两个任务探索难度极高,而有好奇心的 A3C 能在所有情况下获得很好的表现;完全基于好奇心的方法在前两个任务中能够完成任务,而在「非常稀疏」条件下失败。

图 7. 图中显示了在探索环境中人工智能代理的运行方式。红色箭头表示代理的起始点和方向。每个代理在 2100 步以内探索过的房间都被涂了颜色。前三个结果(绿色)是代理在只有内部好奇心驱动的情况下的完成情况。后两个则是随机探索的结果。结果表明,受好奇心内部奖励驱动的探索可以发现更多房间。

UC Berkeley 的研究提出了一种生成好奇心驱动内部奖励信号的机制,并将其拓展到了高维的图像输入任务中。在实验中,这种新方法明显优于此前的 A3C 基准。在没有任何外部奖励的环境中,新的人工智能代理可以学会沿着走廊和房间移动的探索行为。在超级马里奥 Level-1 中,代理在无奖励的情况下完成了超过 30% 的进度。无法超过 38% 的原因之一是此处有一个坑,需要 15-20 个特定顺序按键操作才能通过,如果人工智能代理不按照这个操作进行,它将落入坑中,无法获得更多的环境信息。因此,它不会收到任何有关之后内容的梯度信息。

研究人员认为,未来研究的一个方向是让人工智能将学习到的探索行为/技能作为原始行动/低级策略在更为复杂的分层系统中使用。例如让 VizDoom 中的代理学会沿着走廊移动,而不是不断撞墙,这或许可以为机器人导航任务带来启发。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-05-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 谷歌提出协同机器学习:通过分散的手机更新同一个云端模型

选自Google Blog 作者:Brendan McMahan、Daniel Ramage 机器之心编译 参与:微胖、韩天哲 标准的机器学习方法要求在一个机器...

314100
来自专栏PPV课数据科学社区

入行AI最需要的五大技能

摘要: 作为一名软件工程师,我们应该活到老学到老,时刻与不断发展的框架、标准和范式保持同步。同时,还要能活学活用,在工作中使用最合适的工具,以提高工作效率。随着...

45170
来自专栏AI科技评论

利用好奇心做稀疏反馈任务的学习

AI 科技评论按:近期,Unity 发布了版本 0.4 的机器学习智能体工具包(ML-Agent toolkit v0.4),其中最为突出的新功能是通过额外的基...

9920
来自专栏AI科技评论

动态 | DeepMind 开源TRFL,又一个强化学习复现、创新好帮手

AI 科技评论按:继今年 8 月谷歌开源发布了专为学术研究人员设计的简单但鲁棒的强化学习框架「多巴胺」(Dopamine)之后,早已被谷歌母公司收购但保持独立运...

10430
来自专栏专知

微软研究院开源项目TextWorld:可用于强化学习训练的文本游戏

【导读】可以说,对话系统和自然语言处理(NLP)是现代人工智能(AI)中应用最广泛的部分。 尽管NLP研究不断取得进展,但和人相比,今天的大多数对话系统仍然相当...

8310
来自专栏Material Design组件

About Face 4 第三章(下)构造人物模型

287120
来自专栏AI派

一文告诉你什么是用户画像

做推荐系统的时,我们需要了解我们的用户,也就是说需要对用户的基本情况、基本喜好有个了解。

46150
来自专栏AI研习社

博客 | 「压缩」会是机器学习的下一个杀手级应用吗?

雷锋网AI 科技评论按:机器学习的研究正进行的如火如荼,各种新方法层出不穷。尽管这样,还有一个问题摆在面前,研究这些算法对于现实有什么用。特别是当讨论起机器学习...

8640
来自专栏专知

【KDD2018】300页文本知识提取与推断最新教程

【导读】高度结构化的文本使得文本知识的抽取和推断来的很容易,但是人类所遇到的大部分知识表达形式都是非结构化的文本信息,如何在非结构化的文本中有效地抽取知识一直是...

16230
来自专栏大数据文摘

只需看一眼,伯克利最新机器人就可以copy你的动作!

通过观察另一个人的做法来学习一项新技能,即模仿的能力,是人类和动物智力的关键部分。我们能让机器人做同样的事情吗?

8400

扫码关注云+社区

领取腾讯云代金券