OpenAI制作的系统在Montezuma的Revenge上比人类更好

文章来源：腾讯云开发者社区Kyle Wiggers

人工智能（AI）可以生成脑癌的合成扫描，同时在语言之间进行转换，并教导机器人以人类灵活性操纵物体。正如OpenAI的新研究所揭示的那样，它在玩视频游戏方面也相当不错。

周二，OpenAI--一家位于旧金山的非营利性人工智能研究公司，由Elon Musk，Reid Hoffman和Peter Thiel以及其他技术名人提供支持 - 详细介绍了一篇研究论文AI，它可以在复古平台游戏Montezuma's Revenge中成为最佳人类。表现最佳的迭代发现了第一级中24个房间中的22个，偶尔会发现所有24个房间。

6月份OpenAI开发的机器人可以击败Valve的Dota 2技术团队。

正如OpenAI在随附的博客文章中指出的那样，Montezuma的Revenge对于机器学习算法的掌握来说是非常困难的。这是唯一一个在2015年挫败谷歌子公司DeepMind炙手可热的深度Q-Learning网络的Atari 2600游戏，该游戏获得了人均得分（4.7K）的0％。

“简单的探索策略极不可能收集任何奖励，或者看到该级别的24个房间中的一些以上，”OpenAI写道。“从那时起，蒙特祖玛复仇的进步被许多人视为探索进步的代名词。”

上图：控制玩家角色的代理人。

图片来源：OpenAI

OpenAI调用其方法随机网络蒸馏（RND），并表示它被设计用于任何强化学习算法 - 即使用奖励和惩罚系统的模型，以便在特定目标的方向上驱动AI代理。

传统上，代理人从他们的经验中学习下一状态预测模型，并将预测误差用作内在奖励。与现有方法不同，RND引入奖励奖励，该奖励基于预测下一状态下固定和随机初始化神经网络的输出。

在奔跑过程中，经纪人完全随机地玩蒙特祖玛的复仇，通过反复试验改进他们的战略。由于RND组件，他们被激励去探索他们可能没有的游戏地图区域，即使没有明确传达也能实现游戏的目标。

OpenAI解释说：“好奇心促使代理商发现新的房间并找到增加游戏内得分的方法，而这种外在的奖励促使它在培训后期再次访问这些房间。” “好奇心为我们提供了一种更简单的方式来教授代理与任何环境进行交互，而不是通过广泛设计的任务特定的奖励功能，我们希望这些功能与解决任务相对应。使用不属于环境细节的通用奖励功能的代理可以在广泛的环境中获得基本的能力水平，从而使代理能够确定即使在没有精心设计的奖励的情况下哪些行为也是如此。

上图：AI代理商受好奇心驱使。

图片来源：OpenAI

RND解决了强化学习方案中的另一个常见问题：所谓的噪声电视问题，其中AI代理可能会卡在随机数据中寻找模式（如电视上的静态）。

OpenAI写道：“就像赌博机上的赌徒吸引机会的结果一样，代理人有时会被其好奇心困住。” “代理人在环境中找到了随机性的来源，并不断观察它，总是会对这种转变产生很高的内在回报。”

那怎么表现呢？平均而言，OpenAI的代理商在九次运行中获得了10K，最佳平均回报率为14.5K。较长时间运行的测试产生了17.5K的运行，相当于通过第一级并找到所有24个房间。

他们掌握的不仅仅是蒙特苏马的复仇。当在超级马里奥上放松时，代理人发现了11个级别，发现了秘密房间，并且击败了老板。经过几个小时的训练，他们学会了如何击败Breakout。当他们在Pong与一名人类球员一起打球时，他们试图延长比赛而不是赢球。

除了游戏之外，OpenAI还掌握了许多AI馅饼。

去年，它开发了一种软件，通过随机化模拟场景中的颜色，光照条件，纹理和相机设置，为神经网络生成高质量数据集。（研究人员用它来教一个机械化的手臂从杂货桌上移除一罐垃圾邮件。）最近，在2月，它发布了Hindsight Experience Replay（HER），这是一种开源算法，有效地帮助机器人从失败中吸取教训。在7月，它推出了一个系统，指导机器人手掌握和操纵具有最先进精度的物体。

发表于: 2018-11-012018-11-01 10:20:00
原文链接：https://venturebeat.com/2018/11/01/openai-made-a-system-thats-better-at-montezumas-revenge-than-humans/
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

OpenAI制作的系统在Montezuma的Revenge上比人类更好

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐