前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【越好奇,越强大】伯克利研究人员使用内在激励,教AI学会好奇

【越好奇,越强大】伯克利研究人员使用内在激励,教AI学会好奇

作者头像
新智元
发布2018-03-21 11:34:11
7950
发布2018-03-21 11:34:11
举报
文章被收录于专栏:新智元新智元

来源:Quanta Magazine

编译:Cecilia

【新智元导读】伯克利研究人员正在开发具有好奇心的AI。他们想创造有内在自我驱动能力的AI,而不是依赖人类指令的伪智能。相比外在的奖惩机制,建立方法让智能体拥有内在的好奇心更加重要。研究人员将让AI感到“吃惊”的指数,即对环境预测的误差,作为内在激励函数。吃惊越大,奖励越多,以此让AI迅速掌握环境。

你可能不记得第一次玩“超级马里奥兄弟”是什么感觉,但试着想像一下:蓝色的天空,棋盘石的地面,还有一个蹲着的红色男人在静静等待。他面向右方,你把他推到那个方向。再多走几步,就会看到一排砖块在头顶盘旋,看起来像是一个愤怒的蘑菇。这个人跳起来,他的四像素拳头指向天空。

对于20世纪80年代长大的人来说,这个场景听起来很熟悉,但是你可以在Pulkit Agrawal的YouTube频道上看到一个更年轻的玩家。 Agrawal是加利福尼亚大学伯克利分校的一位计算机科学研究人员,正在研究天生的好奇心如何使学习新内容更加高效,比如第一次玩超级马里奥兄弟。

然而,Agrawal视频中的新手玩家并不是人类。像马里奥一样,它只是一个软件。但这个软件配备了Agrawal和同事Deepak Pathak,Alexei A. Efros和Trevor Darrell在伯克利人工智能研究实验室设计的一个实验性的机器学习算法,这个算法有一个惊人的目的:让机器具有好奇心。

Agrawal说:“你可以把好奇心看作是内部产生的一种奖励,以便更多地探索它的世界。”这种内部产生的奖励信号在认知心理学中被称为“内在激励”。

人类也会回应外在激励。计算机科学家应用强化学习来训练算法:软件在执行所需任务时获得“分数”,而惩罚遵循不想要的行为。

但是这种“胡萝卜加大棒”式的机器学习方法有其局限性,AI研究人员开始将内在激励视为软件代理的一个重要组成部分,使机器更像人类和动物,可以高效而灵活地学习。这种在人工智能中使用内在激励的方法,灵感源于心理学和神经生物学。

虽然代理程序现在仅仅在视频游戏上接受训练,但是“开发有好奇心的AI”这件事意义非常重大。“选择你最喜欢的应用领域,我会给你一个例子,”伯克利人工智能实验室的联合主任Darrell说。“在家里,我们想让机器做家务。我们需要能够在复杂路况中自动驾驶的车辆,以及可以探索建筑物的救援机器人,并找到需要救援的人员。在所有这些情况下,我们试图弄清楚这个非常困难的问题:如何制造一台可以弄清楚自己任务的机器?

奖励机制的问题

强化学习是帮助Google的AlphaGo击败顶尖人类棋手的重要技术。在特定领域使用强化学习的细节很复杂,但总体思路很简单:给予一个学习算法(或“代理”)一个奖励函数,即一个数学定义的信号来寻找和最大化。然后把它放在一个环境中,真实或虚拟环境皆可。当代理在环境中运行时,增加奖励函数价值的行为将得到加强。重复多次后,算法学会了使奖励功能最大化的行为模式。理想情况下,这些模式将使算法达到理想的最终状态(如“在围棋中取胜”),程序员或工程师不必手动编码代理程序需要采取的每一步。

换句话说,奖励功能就是把强化学习驱动的代理锁定在目标上的引导系统。目标的定义越清楚,代理人的表现就越好。这就是为什么他们当中的很多人目前都是在老的视频游戏上进行测试,而这些视频游戏通常会提供基于积分的简单的外在奖励计划。 块状的二维图形也很有用:因为游戏相对比较简单,研究人员可以快速运行和重复实验。

然而“在现实世界中,这没有任何意义,” Agrawal说。计算机科学家希望让他们的创作能够探索新的环境,而不是预先加载可量化的目标。

此外,如果环境不能快速和规律地提供外部奖励,“算法就不知道是否做对或错,”Houthooft说。

而且,即使精心定义的外在奖励功能可以指导算法展示出令人印象深刻的智能行为,如果不经过大规模的修改,也无法轻易推广到其他领域。

研究人员想要创造的是有内在自我驱动能力的AI,而不是依赖人类指令的伪智能。Agrawal说,“人类有一个内在的自我奖励机制。世界上并不存在一个神灵告诉你,做这个就会‘加一分’,做那个就‘减一分’。”

加州大学伯克利分校的计算机科学家Pulkit Agrawal。

好奇心至关重要

伯克利人工智能实验室的研究人员Pathak认为,“好奇心这个词只不过是说‘一种能够引导代理在噪声环境中高效探索环境的模型’”。

但在2016年,Pathak曾对强化学习的稀疏奖励问题感兴趣。以强化学习技术为基础的深度学习最近在玩简单的得分驱动的Atari游戏(例如Space Invaders和Breakout)方面取得了重大进展。但像超级马里奥兄弟等稍微复杂一些的游戏,仍然超出了AI的能力范围。

加州大学伯克利分校的计算机科学家Deepak Pathak

Pathak、Agrawal、Darrell、Efros四人合作,給学习代理配备了他们所称的内在好奇模块( intrinsic curiosity module ICM),这一模块的设计意图是在代理没有失去控制的情况下推进游戏。毕竟,算法完全不了解如何玩超级马里奥兄弟游戏。

事实上,Agrawal和Pathak分别从伯克利和麻省理工学院的发展心理学家Alison Gopnik和Laura Schulz的作品中得到了灵感,他们表明,婴幼儿自然而然地被吸引到最令他们惊讶的物体上,而不是用于实现某些外在目标的对象。 Agrawal说:“解释这种对儿童的好奇心的一种方式就是,儿童建立了他们对世界了解的模型,然后进行实验,以更多地了解他们不知道的东西。”

在Pathak和Agrawal的例子中(这种由惊讶驱动的机器的好奇心),AI首先用数学方法表示当前超级马里奥兄弟的视频框架。然后AI预测游戏看起来有几个框架。目前深度学习可以做到这样。但是Pathak和Agrawal的ICM做了更多的事情。它产生了一个内在的奖励信号,这个信号是去证明预测模型的错误。错误率越高,(或者说,越惊讶),其内在奖励函数的值越高。换句话说,“惊讶”等同于“注意到事情没有如预期般发生” ,那么就是错了,Pathak和Agrawal的系统会因惊讶而获得奖励。

这个内部产生的信号将代理引向游戏中未开发的状态,它对尚未知道的东西感到好奇。而且,随着代理不断学习,预测模型的错误率越来越低,ICM的奖励信号就会减少。这时代理就会通过探索别的令它吃惊的情况,来使收到的奖励信号最大化。Pathak说:“这使探索的效率加快。”

这个反馈回路还可以让AI快速引导自己脱离几乎空白的无知状态。起初,代理对屏幕上的任何基本动作感到好奇。然而,不断的提高,会产生各种不可预测的影响:有时候马里奥会直线上升,有时他短暂跳,其他时间跳远。所有这些结果在代理的预测模型中都记录为错误,从而收到来自ICM的奖励信号,这使得代理不断尝试该行为。向右移动具有类似的好奇吸引效果。在Agrawal的演示视频中可以清楚地看到向上和向右移动的冲动:在几秒钟内,由AI控制的Mario开始像一个多动的幼儿一样向右跳跃,导致越来越不可预知的效果(如碰到悬停的砖块,不小心压扁了一个蘑菇),所有这一切都推动了进一步的学习。

避免新奇性陷阱

自20世纪90年代初以来,好奇心一直是人工智能研究的主题。一种程式化定义好奇心的方式是:代理程序被编程为探索环境中不熟悉的状态。这个广义的定义似乎对好奇心的经验有一个直观的理解,但在实践中,它可能导致代理陷入满足其内在激励的状态,但阻止任何进一步的探索。

例如,想象一个电视屏幕上只显示静态的东西。这会很快引起一个纯粹寻求新奇的代理的好奇心,因为从定义上来说,一个随机闪烁的视觉噪声的方块从一个时刻到另一个时刻是完全不可预测的。由于每种静态模式对代理来说都是完全新颖的,所以它的内在奖励功能将确保它永远不会停止关注环境中这一单一无用的特征。它被困住了。

事实证明,这种毫无意义的新奇事物在虚拟或物理的丰富特色环境中无处不在 ,人工智能必须学会应对,才能变得真正有用。

Agrawal 和Pathak 不得不想出一个方法来保持代理好奇,但不能太好奇。使用深度学习和计算机视觉对代理的视野进行全面的时间整体建模使得它很难过滤潜在干扰。计算成本也很昂贵。

所以,伯克利的研究人员将代理设计为从原始像素的视觉输入转化为现实的抽象版本。这种抽象只包含可能影响代理(或代理可以影响)的环境特征。实质上,如果代理人不能与某个事物互动,那么它就不会被首先感知到。使用这个精简的“特征空间”(相对于未处理的“像素空间”而言)不仅简化了代理的学习过程,而且巧妙地避开了新奇性陷阱。

人造好奇心的局限性

Darrell 承认,这种好奇心模式并不完美。他说:“这个系统知道什么是相关的,但是不能保证它总能正确地做到。”事实上,代理程序在达到局部最佳状态之前,只能通过超级马里奥兄弟的第一级。Agrawal说:“代理必须跨越一个巨大的间隙,这需要以特定顺序执行15或16个连续的行动。因为它永远无法跳过这个缝隙,每次去那里都会死亡。而且,当它学会准确地预测这个结果时,就不会再有好奇心继续在游戏中前进了。”

伯克利人工智能研究实验室的联合主任Trevor Darrell。

人造好奇心的问题在于,即使是研究内在激励多年的研究人员仍然无法精确定义好奇心是什么。领导明尼苏达大学计算机认知与行动实验室的神经科学家保罗·施拉特(Paul Schrater)表示,伯克利模型“是短期内让代理自动学习新环境的最明智之举”,但他认为与“运动的学习和控制”相比,“直观的好奇心”更少。他说:“它控制着认知之下的东西,更多的是控制身体的细节。”

法国Inria公司研究总监Pierre-Yves Oudeyer表示,好奇心也许还需要代理至少在环境中有一定的体现才能具备真正的意义。 Oudeyer十多年来一直在创造好奇心的计算模型。他指出,世界是如此之大而丰富,以至于代理可以在任何地方找到惊喜。但是这不够。 Oudeyer说:“如果你有一个无实体的代理利用好奇心去探索一个大的特征空间,那么它的行为最终会看起来像随机探索,因为它没有任何行动上的限制。”

但是并不是所有实体化的代理都需要内在激励,正如工业机器人的历史所表明的那样。对于更简单的任务,比方说,使用机器人将货物从一个地方送到另一个地方 ,增加好奇并不是明智之举。

原文地址:https://www.quantamagazine.org/clever-machines-learn-how-to-be-curious-20170919/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档