【DeepMind&OpenAI】利用人类偏好深度强化学习,机器学会后空翻

【新智元导读】DeepMind 和 OpenAI 合作的新研究,让没有技术经验的人类给强化学习系统提供反馈,从而避免事先为系统指定目标的步骤。在某些情况下,这种方法只需要30分钟的反馈就足以训练系统,包括教会系统一个全新的、复杂的行为,例如使模拟机器人做后空翻。

下载论文:https://arxiv.org/abs/1706.03741

我们相信,人工智能将是最重要、最广泛有益的科学进步之一,人工智能帮助人类应对了一些最大的挑战,例如应对气候变化,提供先进医疗,等等。但是,为了让AI实现它的效用,我们知道技术必须建立在负责任的基础之上,我们也必须考虑所有潜在的挑战和风险。

这就是为什么 DeepMind 作为共同创立者发起了一些机构,例如AI联盟(Partnership on AI),旨在惠及人类和社会;以及为什么我们拥有一个致力于AI安全(AI Safety)的团队。这一领域的研究需要开放、协作,以确保尽可能广泛地采取最佳的实践,这也是我们为什么与OpenAI合作开展AI安全技术研究的原因。

这个领域的一个核心问题是:我们如何允许人类去告诉系统我们希望它做什么,以及更重要的是,我们不希望它做什么。随着我们利用机器学习处理的问题越来越复杂,以及这些技术在现实世界中得到应用,这个问题变得越来越重要。

DeepMind 和 OpenAI 合作的第一个结果证明了一种解决这个问题的方法:让没有技术经验的人类来教给强化学习(RL)系统一个复杂目标。强化学习是通过反复的试验和试错学习的系统。这就消除了让人类事先为算法指定一个目标的需要。这是一个重要的步骤,因为假如目标就算只出了一点点差错也可能导致不良、甚至危险的行为。在某些情况下,只需要30分钟的来自非专家的反馈就足以训练我们的系统,包括教会系统一个全新的、复杂的行为,例如使模拟机器人做后空翻。

大约用了900条来自人类的反馈来教这个算法做后空翻

我们在新论文《利用人类偏好的深度强化学习》(Deep Reinforcement Learning from Human Preferences)描述了这个系统,它与经典的RL系统不同,经典的RL系统使用被作为“激励预测器”(reward predictor)的神经网络训练智能体,而不是在智能体探索环境时收集的激励。

在这里下载论文:https://arxiv.org/pdf/1706.03741.pdf

它包括3个并行运行的进程:

  • 一个强化学习智能体探索它所处的环境(例如在Atari游戏中)并进行交互;
  • 定期地,该智能体所做行为的1~2秒的两个剪辑片段被发送给人类控制员,人类控制员需要在二者中选择一个最能实现预期目标的行为;
  • 人类的选择被用于训练激励预测器,该预测器反过来又用于训练智能体。随着时间的推移,智能体学习最大限度地提高从预测器得到的奖励,并根据人类的偏好改进自己的行为。

系统将学习目标与学习行为分开来实现

这种迭代学习的方法意味着人类可以发现和纠正智能体的任何不想要的行为,这是所有安全系统的关键部分。这样的设计也不会给人类控制员带来沉重的工作负担,他们只需要检查智能体的大约0.1%的行为,就能令其做他们希望的行为。但是,这仍然意味着要检查几百上千个剪辑片段,假如应用到现实世界的问题上,这个工作量是需要减少的。

人类控制员必须在两个剪辑片段之间选一个。在这个例子中,对于Atari游戏Qbert而言,右边的剪辑看起来是更好的行为(得分更高)

在Atari的Enduro游戏,要驾驶一辆汽车并超其他车,这很难通过传统的RL网络的试验和试错方法学习,加入人类反馈的方法最终使我们的系统实现了超过人类的结果。在其他游戏和模拟机器人的任务中,我们的方法与标准的RL设置表现相当,但在Qbert和Breakout等几个游戏中,我们的方法根本不工作。

但是,这样一个系统的最终目标是即使智能体不在环境中的情况下,也能允许人类来为智能体指定一个目标。为了测试,我们教智能体各种各样的新行为,例如令它进行后空翻,单腿走路或在Enduro游戏中学习与另一辆车并排行驶,而不是为了得分去超车。

Enduro的正常目标是尽可能多地超车。但是在我们的系统中,我们可以训练智能体实现不同的目标,比如与其他车辆并行。

虽然这些测试得到了一些积极的结果,但其他测试显示出其局限性。尤其是,如果在训练初期停止人类的反馈,我们的设置很容易被奖励黑掉。在这种情况下,智能体继续探索所处环境,这意味着激励预测器被迫在没有反馈的情况继续预测奖励。 这可能会导致过高的奖励,从而令智能体学习了错误的行为——往往是奇怪的行为。下面的视频是一个例子,智能体发现,来回击球是相比应分或失分更好的策略。

智能体的奖励功能黑了,它决定来回击球优于赢分或失分

了解这些缺陷对于确保我们避免故障,并构建按照预期行为的AI系统至关重要。

为了测试和增强这个系统,我们还有更多的工作要做。但是这个系统已经显示了在创建可以由非专家用户使用的系统的许多关键的第一步,它们所需的反馈量十分少,而且可以扩展到各种各样的问题。

其他的探索领域可以是减少所需人类反馈的量,或使人类能够通过自然语言界面提供反馈。这将标志着创建一个可以轻松学习人类行为复杂性的系统的显著进步,也是创造与人类全面合作的AI的关键一步。

这项研究是 DeepMind 的 Jan Leike,Miljan Martic,Shane Legg 和 OpenAI 的 Paul Christiano,Dario Amodei 以及 Tom Brown 持续合作的一部分。

在 OpenAI 的 gym 复制后空翻实验,使用如下奖励函数:

DeepMind博客介绍:https://deepmind.com/blog/learning-through-human-feedback/

OpenAI博客介绍:https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-06-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

机器学习不是万能的!谷歌工程师:激发人的想象力才能创造惊艳的用户体验

19530
来自专栏大数据文摘

Facebook最新研究:我们训练机器人讨价还价,没想到AI还自己学会了“使诈”(附论文)

16010
来自专栏智能计算时代

数据科学难题,怎么解释到底什么是数据科学

网络上没有任何文章比较和对比数据科学术语。所有类型的人都写了各种各样的文章,将他们的意见传达给任何愿意倾听的人。这几乎是压倒性的。

23530
来自专栏新智元

【人工智能的架构趋势】AI专有芯片版百度大脑首次解密

在今年9月份召开的百度世界大会上,百度高级副总裁王劲在接受采访时曾透露,百度已经打造了FPGA版的百度大脑,性能远超此前的版本。“这在当年是百度的一个秘密项目,...

37380
来自专栏量子位

AI有了更强的想象力!DeepMind又立功了 | 附两篇新论文

陈桦 编译自 DeepMind Blog 量子位 报道 | 公众号 QbitAI ? 人类,可以在行动之前预想到后果,这是我们认知能力中一种强大的工具。 举例来...

33260
来自专栏机器人网

推荐:10本好书,让你成为机器学习领域的专家

机器学习是个跨领域的学科,而且在实际应用中有巨大作用,但是没有一本书能让你成为机器学习的专家。 在这篇文章中,我挑选了 10 本书,这些书有不同的风格,主题也不...

38180
来自专栏数据科学与人工智能

人工智能技术在移动互联网发展中的应用

智能化需求体现在两个方面 随着移动互联网的发展进入新的方向,移动互联网中的智能化已经成为新的发展趋势和主要需求。智能化需求目前主要体现在两个方面: 一方面是促生...

435100
来自专栏新智元

视频 | 谷歌最新研究曝光: 合作式增强学习让机器人掌握通用技能

【新智元导读】谷歌大脑、DeepMind和 Google X 的研究员正在设计一种新的实验,探讨使用多个机器人共同学习通用技能的三种可行的方法:直接从经验中学习...

35770
来自专栏数据科学与人工智能

【数据科学】数据科学入门指南

数据科学虽然刚刚兴起,却发展迅速。 只要有数据的地方,就需要数据科学团队来分析、挖掘数据。 因而,在各个行业都需要大量的数据科学家。 2015年,数据科学家的平...

24890
来自专栏企鹅号快讯

如何成为一名数据科学家

来源Jack Cook 编译 Mika 本文为 CDA 数据分析师原创作品,转载需授权 想从事数据科学领域的初学者总是很困惑:应该学习哪种编程语言?专业重要吗...

20690

扫码关注云+社区

领取腾讯云代金券