DeepMind用一个AI在57个游戏中全面超越人类

文章来源：企鹅号 - 花信笑容

新智元AI WORLD 2018世界人工智能峰会

倒计时5天

新智元将于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会，计算机视觉领域先驱、约翰霍普金斯大学认知与计算机科学系教授Alan Yullie将亲临会场，发表主题演讲《深度网络及更多：大数据不是万能的》。随着计算机视觉技术的发展，如何利用小数据乃至无数据解决特定应用场景问题，将是最新的一个关键点，欢迎到现场交流！

活动行购票二维码：

新智元报道

来源：deepmind

编辑：肖琴

【新智元导读】多任务学习一直是AI研究的长期目标。DeepMind开发了PopArt，解决了不同游戏奖励机制规范化的问题，它可以玩57款雅达利电子游戏，并且在所有57款游戏中达到高于人类中间水平的表现。

多任务学习——让单个agent学习如何解决许多不同的任务——这是AI研究的一个长期目标。

近年来，多任务学习领域已经取得许多卓越的进步，例如DQN这样的智能体能够使用相同的算法来学习玩多个游戏，包括雅达利经典的 “突出重围”（Breakout）和 “乒乓球”（Pong）游戏。

这些算法为每项任务训练一个专家智能体（expert agents）。随着AI研究向更复杂的现实世界领域发展，构建一个单一的强智能体（general agent）来学习执行多重任务将变得至关重要，而不是构建多个专家智能体。然而，到目前为止，这已经被证明是一项重大挑战。

原因之一是，强化学习智能体用来判断成功的奖励方案经常存在差异，导致他们把注意力集中在奖励更高的任务上。例如，在雅达利游戏“Pong”中，agent每一步会获得-1、0或+1的奖励:

Pong游戏中，两道竖杠代表球拍，一个小光点代表球在屏幕上蹦蹦跳跳，由人操纵按纽控制反弹，打不中就失去一分

相比之下，在“吃豆人”游戏中，agent每走一步就可获得几百、几千的分数。即使个体奖励的规模相似，但随着agent变得更好，奖励的频率会随着时间推移而变化。

这意味着agent倾向于关注那些有很高分数的任务，导致在某些任务上表现更好，而在其他任务上表现更差。

为了解决这些问题，DeepMind开发了PopArt，它可以调整每一款游戏的分数等级，这样不管游戏原本的奖励等级如何规定，AI智能体都会判断游戏具有同等的学习价值。

PopArt：在保持输出完好的同时，自适应地重新调整目标（PreservingOutputsPrecisely whileAdaptivelyRescalingTargets）。

DeepMind将PopArt规范化应用到最先进的强化学习智能体上，从而得到一个单一的智能体，它可以玩57款雅达利电子游戏，并且在所有57款游戏中达到高于人类中间水平的表现。

PopArt：规范化奖励，不影响目标

一般来说，深度学习依赖于不断更新的神经网络的权重，使神经网络的输出更接近期望的目标输出。当神经网络被用于深度强化学习时也是如此。PopArt通过估计这些目标的平均值和传播范围（比如游戏中的得分）来工作。然后，它使用这些数据对目标进行规范化，再利用它们来更新网络的权重。

使用规范化的目标可以使学习更加稳定和强大，以适应规模和转换的变化。为了获得准确的估计——例如对未来的预期分数的估计——网络的输出可以通过反转规范化过程来重新调整到真实的目标范围。如果直接这样做，每次更新统计数据都会改变所有未规范化的输出，包括那些已经非常好的输出。我们通过向相反的方向更新网络来防止这种情况的发生。这意味着我们可以在保持以前学习过的输出完好的同时，获得大规模更新的好处。

传统上，研究人员通过在强化学习算法中使用奖励修剪（reward clipping）来克服不同奖励尺度的问题。这种方法将很大或很小的分数修剪为1或-1分的得分，大致使预期奖励规范化。虽然这使学习变得更容易，但是它也改变了agent的目标。

例如，在“吃豆人小姐”（Ms. Pac-Man）游戏中，吃豆人的目标是收集豆子，吃到每个豆子获得10分，吃到鬼魂获得200到1600分。通过修剪奖励，agent吃一个豆子和吃一个鬼魂得到的奖励没有明显的区别，导致agent只吃豆子，从不去追逐鬼魂。如下面的视频所示：

发表于: 2018-09-152018-09-15 15:52:57
原文链接：https://kuaibao.qq.com/s/20180915A0ZUYD00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

DeepMind用一个AI在57个游戏中全面超越人类

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐