谷歌AI-强化学习中的好奇和拖延

【导读】强化学习是机器学习中最活跃的研究方向之一,其中代理在做正确的事情时获得积极的奖励,否则获得负面的奖励。这种胡萝卜加大棒的方法简单而通用,并使得DeepMind让DQN算法来玩古老的Atari游戏和AlphaGoZero来玩古老的Go游戏。这也是OpenAI如何使OpenAI-Five算法玩转现代视频游戏Dota,以及Google如何教机器人手臂来拿新物体的方法。然而,尽管强化学习取得了成功,但要使其成为一种有效的技术仍存在许多挑战。

作者|Nikolay Savinov

编译|专知

整理|Yingying,李大囧

由于代理的反馈稀疏,标准强化学习算法很难取得最佳效果 - 至关重要的是,这种情况在现实世界中很常见。举个例子,想象一下如何在一个大型的迷宫式超市中学习找奶酪。你四处走动但是如果你在每一步都没有收到“胡萝卜”而没有“坚持”,那就无法判断你是否正朝着正确的方向前进。在没有奖励的情况下,什么让你找到正确的方向,而停止徘徊?除了你的好奇心,这会激励你进入一个看起来不熟悉的产品部分,追求你所追求的奶酪。

我们提出了一种新的基于情景记忆的模型,它可以提供强化学习奖励,类似于好奇心,可以探索环境。我们希望代理不仅要探索环境而且要解决原始任务,我们将模型提供的奖励添加到原始的稀疏任务奖励中。合并后的奖励不再稀疏,因此可以使用标准强化学习算法学习。因此,我们的好奇心方法扩展了可用强化学习解决的任务集。

我们方法的关键思想是将代理人对环境的观察结果存储在情景记忆中,在代理人达到尚未在记忆中表示的观察结果时,给予奖励。 “去不在记忆里的地方”是我们方法中新颖性的定义 - 寻求这种观察意味着寻求不熟悉的东西。寻求陌生的地方这种驱动将代理带到不同的地方,从而防止它在圈内徘徊并最终帮助它达到目标。令我们惊讶的是,这些行为与外行人称之为“拖延”的行为有些相似。

过去的解决方法

尽管在过去有许多尝试来形成好奇心的方法,但在这篇文章中我们关注的是一种自然且非常流行的方法:基于预测惊喜的好奇心(在论文“Curious-driven Exploration by Self-supervised Prediction”中具体介绍,一般被称为ICM方法)为了说明惊喜如何引起好奇心,我们还是以在超市找奶酪打比方。

当你在整个市场漫步时,你试着预测未来(“现在我在肉类部分,所以我认为拐角处的部分是鱼段 - 这些通常在这个超市连锁店中相邻”)。如果你的预测是错误的,你会感到惊讶(“不,它实际上是蔬菜部分。我没想到!”)因而得到回报。这使您更有动力在未来瞄准角落,探索新的位置,看看您对它们的期望是否符合现实(并且,希望,偶然发现奶酪)。

类似地,ICM方法建立了世界动态的预测模型,并在模型未能做出良好预测时给予代理奖励 - 这是惊喜或新奇的标志。请注意,探索未访问的位置并不直接是ICM产生好奇心的方法。对于ICM方法,访问未知位置只是获得更多“惊喜”的方式,从而最大化整体奖励。事实证明,在某些环境中可能存在其他方式造成自我惊讶,从而导致无法预料的结果。

“拖延”的危险

在“好奇心驱动学习的大规模研究”中,ICM方法的作者和OpenAI的研究人员显示出惊人最大化的隐藏危险:代理可以学会放纵拖延行为,而不是做任何有用的事情来完成任务。为了了解原因,请考虑一个共同的思想实验,作者称之为“嘈杂的电视问题”,其中一个代理人被置于一个迷宫中并负责寻找一个非常有价值的项目(类似于我们之前的超市示例中的“奶酪”)。环境还包含电视,而代理有遥控器。频道数量有限(每个都有不同的节目),遥控器上的每次按下都会切换到随机频道。代理在这样的环境中会怎么做?

对于基于惊喜的好奇心的表述,改变频道会产生巨大的回报,因为每次变化都是不可预测和令人惊讶的。至关重要的是,即使在所有可用频道中循环播放之后,随机频道选择也会确保每一个新变化仍然令人惊讶 - 代理人正在预测频道改变后电视上会发生什么,很可能会出错,导致惊喜。重要的是,即使代理已经看过每个频道的每个节目,按下遥控器按钮之后的变化仍然是不可预测的。因此,充满惊喜的好奇心的代理人最终将永远留在电视机前,而不是寻找一个非常有价值的项目 - 类似于拖延。那么,好奇心的定义是什么,不会导致这种行为呢?

情节好奇心

在“通过可达性的情节好奇心”中,我们探索了一种基于记忆的情境好奇心模型,结果证明不太容易“自我放纵”的即时满足感。为什么这样?使用上面的示例,在更改频道一段时间后,所有节目将最终在 记忆中。因此,电视将不再具有吸引力:即使屏幕上出现的节目顺序是随机且不可预测的,所有这些节目已经在记忆中!这是基于惊喜的方法的主要区别:我们的方法甚至没有试图对可能很难(甚至不可能)预测的未来下注。相反,代理会检查过去,以了解它是否已经看到类似于当前的观察结果。因此,我们的代理人不会被嘈杂的电视提供的即时满足所吸引。它必须去电视之外探索世界才能获得更多奖励。

但是,我们如何判断代理是否看到与现有内存相同的东西?检查完全匹配可能毫无意义:在现实环境中,代理很少看到两次完全相同的事情。例如,即使代理返回到完全相同的房间,它仍然会在与其记忆相比的不同角度看到这个房间。

我们使用深度神经网络来训练测量两种体验的相似程度,而不是检查记忆中的精确匹配。为了训练这个网络,我们猜测是否有两个观察结果在时间上紧密相连,或者在时间上相距很远。时间接近度是两个体验是否应该被判断为同一体验的一部分的良好代表。该训练通过可达性导致新颖性的一般概念,如下所示。

实验结果

为了比较不同方法的表现,我们在两个视觉丰富的3D环境中进行了测试:ViZDoom和DMLab。在这些环境中,代理的任务是处理各种问题,例如在迷宫中搜索目标或收集好的内容以及避免坏对象。 DMLab环境恰好为代理提供了类似激光的科幻小说小工具。DMLab的工作中的标准设置是为代理配备所有任务的小工具,如果代理不需要特定任务的小工具,则可以免费使用它。有趣的是,类似于上面描述的嘈杂的电视实验,基于惊喜的ICM方法实际上使用了这个小工具,即使它对于手头的任务是无用的!当负责在迷宫中搜索高回报的物品时,它更喜欢花时间标记墙壁,因为这会产生很多“惊喜”奖励。从理论上讲,标记的结果是可以被预测的,但实际上太难了,因为它显然需要比标准代理可用的更深入的物理知识。

我们的方法在相同的条件下学习合理的探索行为。 这是因为它没有试图预测其行为的结果,而是寻求从已经在情景记忆中的那些“更难”实现的观察。 换句话说,代理隐含地追求目标,这些目标需要更多努力才能从记忆中获取而不仅仅是单个标记操作。

有趣的是,我们给予奖励的方法会惩罚在圈子中运行的代理人。 这是因为在完成第一个圆后,代理不会遇到除记忆中的观察之外的新观察,因此不会得到任何奖励:

同时,我们的方法有利于良好的探索行为:

我们希望我们的工作将有助于引领新的探索方法浪潮,超越惊喜并学习更智能的探索行为。

论文链接:

https://arxiv.org/abs/1810.02274

原文链接:

https://ai.googleblog.com/2018/10/curiosity-and-procrastination-in.html

-END-

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-10-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

人工智能与自然语言处理概述:AI三大阶段、NLP关键应用领域

选自xenonstack 机器之心编译 参与:黄小天、李亚洲 近日,Xenonstack 上推出了一篇名为《Overview of Artificial In...

4608
来自专栏PPV课数据科学社区

目前数据科学和机器学习中使用的最多的20个包

CRAN包库有6778个常用的包。哪些是你知道的?下面对此进行以下的分析,同时在文章底部另请参见原始数据链接。 这些R包都是Kagglers里的技术大牛最青睐的...

3555
来自专栏FD的专栏

人工智能与自然语言处理概述:AI三大阶段、NLP关键应用领域

AI 指代「人工智能」,是让机器能够像人类一样完成智能任务的技术。AI 使用智能完成自动化任务。

1023
来自专栏MixLab科技+设计实验室

解读:如何让机器自动答题?

冲顶大会、芝士超人、百万赢家、百万英雄……搜狗推语音搜索答题外挂。今天我来总结下利用搜索来答题的技术原理。 本质上,这是一个自动问答( Question Ans...

37010
来自专栏AI科技评论

学界 | 超大规模图计算在阿里巴巴的应用都有哪些?四篇KDD oral论文抢先看(附论文下载)| KDD 2018

AI 科技评论按:本文为阿里巴巴提供的 KDD 2018 解读稿件。这一事件在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有相应加分。

1472
来自专栏人工智能

DeepMind的小窍门,究竟如何给AI提的速?

人工智能里一直以人类为学习榜样。而在面部识别、电子游戏、甚至围棋等领域,深度学习都已经超越了人类,以至于造成人类已经失败了的感觉。

21510
来自专栏IT派

我的深度学习工作站

很多人觉得深度学习上手非常困难,让我们看看,对于程序员来说,着手深度学习的实践需要准备什么样的工具。 ? 硬件 从硬件来讲,我们可能需要的计算能力,首先想到的...

4189
来自专栏MixLab科技+设计实验室

用深度学习指导用户体验设计

前阵子分享了:让机器预测平面设计作品的视觉焦点 的文章,深度学习被用于预测平面设计作品的视觉焦点。其实在UX设计领域,有个课题是眼球轨迹的研究,早在2006年4...

3015
来自专栏IT派

推荐:35个热门又实用的开源 AI 项目!

2017年企业界在AI技术上的开支将达到125亿美元,比2016年增长逾59.3%。这股强劲的增长势头可能会一直持续到2020年,到时收入有望达到460亿美元。...

4039
来自专栏专知

看论文头疼吗?这里有一份学术论文阅读指南请查收~

【导读】对于从事学术研究的人来说,跟进最新的论文是必备的科研素质之一。但面对海量的论文更新,应该如何快速又有效地阅读论文,吸收其精华? KyleM Shanno...

1420

扫码关注云+社区

领取腾讯云代金券