迁移学习比赛:OpenAI喊你重温「音速小子索尼克」

Root 编译自 OpenAI 量子位 出品 | 公众号 QbitAI

一直以来,在典型的强化学习研究里,常拿怀旧小游戏训练算法。

可算法的训练和测试环境都是同一个,这就会让那些本身带有超参数和靠死记硬背的算法获得不错的结果。

为了解决这个问题,OpenAI办了一个迁移学习的比赛,让大家训练出的AI智能体去玩世嘉经典「音速小子索尼克」,看哪个智能体能在从没见过的关卡里获得最佳的表现。

OpenAI会给你一个训练集,是一系列刺猬索尼克的关卡。然后用特定为这次比赛制作的测试集来评估你的算法。

这个比赛从4月5号开始,到6月5号截止,为期两个月。

比赛用的数据集Gym Retro,是一个整合经典电动游戏到Gym的全新平台,目前已包含30个世嘉创世的游戏。

为了方便大家上手,OpenAI放出了Retro的基线表现,这样大家就能get到怎么用强化算法去跑这些比赛的任务了。

Retro比赛测试集的基线结果显示,即使用了迁移学习,强化学习算法的表现依然比人类水平差很远。红色那根水平虚线是人类玩家的表现,这还是人类玩了一小时的结果,而算法已经玩了18个小时。

在训练的时候,你可以用任何环境和数据集。但测试期间只有18个小时(100万时步)去过每个没见过的关卡。听起来,18个小时过一关很长,但对现在比人类玩家弱鸡的强化学习模型来说,这个训练时间捉襟见肘。

音速小子索尼克

为了把基准表现描述得更具体些,以及提供一些基线结果,OpenAI给出了一份技术报告:Gotta Learn Fast:A New Benchmark for Generalization in RL。

地址:https://storage.googleapis.com/agi-data/blog/gym-retro/contest-tech-report.pdf

从这份报告里除了能看到基准表现,还可以看到跑彩虹DQN,PRO和简单随机猜测算法JERK的结果。

JERK的表现代表了专门为刺猬索尼克作出优化尝试而采取的一系列随机行为,随着训练时间增长,索尼克会更频繁地使用那些能拿高分的行为。

同时,OpenAI也发现,通过训练时获得的经验可以显著提高PRO在测试中的表现。

尤其是在训练阶段有预训练网络以及测试阶段有精细地微调的话,它的表现能翻番,甚至比最强的基线结果还要好。

虽然这并不是首个把迁移学习成功用在强化学习的例子,但是能看到迁移学习能有那么厉害和稳定的作用也是很让人亦可赛艇的事儿。

要算法达到人类的表现,还有很长的一段路要走。

像上面提到的,人类玩家只要训练两个小时,测试时玩个一小时所拿到的分数都远远高于用了迁移学习的强化学习算法。

Gym Retro的Beta版

OpenAI放出的Gym Retro是一个打包了一堆经典的电子游戏的系统,给强化学习模型提供一个环境。最初放出的这一版里有从世嘉创世Steam的老游戏大包里挑出的30个游戏,还有雅达利2600里Arcade Learning Environment里的62个游戏。

近五年来,Arcade Learning Environment是强化学习研究的主要驱动力。它是一个强化学习和雅达利2600的交互界面集合。这些雅达利的游戏,相比于之前强化学习的基准来说,要更复杂多变,也是之前设计来挑战人类玩家的运动控制技能和解决问题的能力。

Gym Retro的Beta版采用了比雅达利更先进的控制台,拓展了适合强化学习研究的游戏的数量和复杂度。世嘉创世里的游戏很多关在很多维度上都类似,比方是物理层面,物体的外观等等,而在材质上不同。

对迁移学习来说,这就是非常理想的测试环境了。它还有一点比雅达利游戏要好的是,能够用上更好的创世里的硬件,比方说,内存容量是雅达利的500倍,可以获得更大范围的控制输入,以及支持更好的画面。

Gym Retro系统是受到怀旧学习环境的启发,不过会更加复杂。比方说,如果你想更细致地定义环境,可以不再用C++了,用JSON文件就能搞定。这对新游戏整合来说更容易了。

Gym Retro是OpenAI团队第二次尝试搭建大型的强化学习环境数据集。其中一些理念出自于2016年下半年的Universe,不过因为Universe环境的运行不是同步,而是实时的,所以OpenAI团队无法取到满意的结果。

Universe简介:https://blog.openai.com/universe

Gym Retro就拓展了Arcade Learning Environment的模型,使其适配更多的游戏。

Gym Retro系统GitHub地址:https://github.com/openai/retro#gym-retro

有些时候,算法也很鸡贼。像经PRO训练的策略就发现索尼克不断往右挪就能直接穿墙,这样可以获得更高的分数。

这就是一个典型的,奖赏机制是怎么导致AI智能体做出些奇奇怪怪的行为例子。

BTW,测试集一共有两个,一个是能影响比赛进行过程中的排行榜,另外一个是只用于最后排名的。另外,OpenAI建议参赛者采用分开的训练集、测试集的默认关卡,大家可以从技术报告中看到所有的训练测试结果以及学习曲线。

参赛规则

训练你码好的AI智能体去玩刺猬索尼克,然后向OpenAI提交你的成果(用Docker容器)。然后OpenAI会用上述的神秘测试集去测你AI的表现,你将会在排行榜上看到你AI的分数。整个过程看下图。

最后,附比赛报名地址:

https://contest.openai.com/

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-04-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

机器视觉技术原理解析及应用领域

01 简介 机器视觉是一项综合技术,包括图像处理、机械工程技术、控制、电光源照明、光学成像、传感器、模拟与数字视频技术、计算机软硬件技术(图像增强和分析算法、图...

95260
来自专栏AI研习社

Facebook 开源 FAISS;MIT 开发机器学习数据合成系统 SDV | 开发者头条

更高效的聚类、相似性搜索算法库,Facebook 开源 FAISS MIT 黑科技,合成数据也能用于机器学习 机器学习算法成功预测人造地震 每日推荐阅读 Vi...

35440
来自专栏人工智能头条

聊天机器人中的深度学习技术(引言)

28470
来自专栏鸿的学习笔记

Upvote Dynamics on the Quora Network(下)

在本节中,我们将看看答案在作者的相关受众中如何动态传播。在我们这样做之前,我们应该退一步,并反思我们如何期望网络距离的行为。具体来说,这个指标是否会是一件好事?...

6810
来自专栏PPV课数据科学社区

【推荐】飞林沙:商品推荐算法&推荐解释

这是今天看到的一篇蛮有新意的讲稿,由于不是一篇完整的论文,所以理解起来稍微有些困难,就顺着写个笔记,仅供参考。 Ref: http://www.wsdm-con...

31950
来自专栏华章科技

机器学习工作职位需要的7项技能

机器学习经常与人工智能紧密相连,在不考虑显式编程的情况下,机器学习可以使计算机具备完成特定任务的能力,例如识别,诊断,规划,机器人控制和预测等。它往往聚焦于算法...

8820
来自专栏AI科技大本营的专栏

Dota2团战实力蔑视人类,解剖5只“AI英雄”

去年,OpenAI 在 DOTA 的 1v1 比赛中战胜了职业玩家 Dendi,而在距离进阶版 OpenAI Five 系统战胜人类业余玩家不过一个月的时间,今...

10650
来自专栏机器之心

专访 | Gamma Lab:让机器回答一个自然语言问题需要几步?

人类从一百二十万年前就开始制造机器了。阿基米德的杠杆给了我们力量,伽利略与达芬奇的动力学给了我们速度与空间,而计算机科学将取之不尽的信息从广阔的世界里吸收过来呈...

17020
来自专栏CVer

免费资源 | 机器学习 新手快速入门

昨天正式开启了CVer免费赠书:送7本实体书(包邮) 活动,其中、有 4种赠书方式,Amusi也觉得赠的书不多,反而赠书方式多了,甚至觉得自己往营销方面跑了。因...

26820
来自专栏CVer

三个牛人教你怎么高效阅读论文

写论文做研究的时候少不了要看论文,但是很多时候看过同类的论文之后发觉什么也没记住,本文将有三位牛人想大家分享他们在阅读论文的一些技巧,希望对大家有用。

14630

扫码关注云+社区

领取腾讯云代金券