资源 | OpenAI发布强化学习环境Gym Retro:支持千种游戏

、选自OpenAI Blog

作者:Vicki Pfau等

机器之心编译

参与:张倩、李泽南

Gym 是 OpenAI 发布的用于开发和比较强化学习算法的工具包。使用它我们可以让 AI 智能体做很多事情,比如行走、跑动,以及进行多种游戏。目前,它运行在支持 Python 3.5 和 3.6 的 Linux、macOS 和 Windows 系统上。

项目链接:https://github.com/openai/retro/tree/develop

OpenAI 近日发布了完整版游戏强化学习研究平台——Gym Retro。在本次发布之后,OpenAI 公开发布的游戏数量将从大约 70 个雅达利和 30 个世嘉游戏增加到了 1000 多个游戏,其中包括对任天堂 Game boy 等各种模拟器的支持。此外,OpenAI 还将发布用于向 Gym 平台添加新游戏的工具。

OpenAI 利用 Gym Retro 对强化学习算法及学习能力的泛化进行了研究。RL 领域之前的研究主要集中在优化智能体以完成单个任务上。Gym Retro 可以帮助研究在概念相似但外观不同的游戏之间进行泛化的能力。

此版本包括来自世嘉 Genesis 和世嘉 Master System 的游戏,以及任天堂的 NES、SNES 和 Game Boy 控制台,还包括对世嘉 Game Gear、任天堂 Game Boy Color、任天堂 Game Boy Advance 及 NEC TurboGrafx 的初步支持。一些已发布的游戏集成,包括 Gym Retro data/experimental 文件夹中的那些游戏,都处于测试状态——如果试用中遇到任何 bug,可以联系 OpenAI。由于所涉及的变更规模很大,代码暂时只能在 Branch(https://github.com/openai/retro/tree/develop)上使用。为了避免破坏参赛者的代码,在比赛结束之前,OpenAI 将不会合并 Branch。

正在进行的 Retro Contest(几周后结束!)及 OpenAI 最近的技术报告(https://arxiv.org/abs/1804.03720)集中讨论了在同一游戏(Sonic The Hedgehog™)的不同级别之间进行泛化的比较容易的问题。完整的 Gym Retro 数据集进一步完善了这一问题,并使研究不同游戏之间更难的泛化问题成为可能。数据集的规模和单个游戏的难度使其成为一个巨大的挑战,OpenAI 希望在明年分享自己的研究进展。他们还希望 Retro Contest 参与者开发的一些解决方案能够得到扩展并应用到整个 Gym Retro 数据集。

集成工具

OpenAI 还将发布用于集成新游戏的工具。如果你有游戏 ROM,此工具可以帮你轻松创建储存状态、寻找内存位置以及设计强化学习智能体可以实施的方案。OpenAI 已经为希望增加新游戏支持的人编写了一个集成器指南(https://github.com/openai/retro/blob/master/IntegratorsGuide.md)。

集成工具还支持录制、播放将所有按钮输入保存到游戏中的视频文件。这些文件很小,因为它们只需要存储按钮按下的开始状态和顺序,而不是输出的每一帧。像这样的视频文件对于可视化增强学习智能体正在执行的操作以及存储用作训练数据的人工输入非常有用。

Farming 奖励

在开发 Gym Retro 时,OpenAI 的研究人员发现很多 AI 智能体学会了 farm 奖励(只专注于游戏得分),而忽略了完成隐藏的真正任务。如上图所示,进行 Cheese Cat-Astrophe(左)和 Blades of Vengeance(右)游戏的智能体都陷入了疯狂得分的死循环。这是 OpenAI 之前讨论过的一种现象(https://blog.openai.com/faulty-reward-functions/):当我们只给强化学习算法一个简单的奖励函数时(如最大化游戏得分),可能会导致智能体出现错误的行为。

对于密集奖励(频繁和增量)游戏而言,最难的地方在于需要进行快速反应,像 PPO 这样的强化学习算法可以很好地应对这种挑战。

在 Gradius 这样的游戏中(上图右侧),你会在每次击中敌人之后得到奖励点数,这意味着开始机器学习的速度会很快。在这样的游戏中生存下来需要你具备躲避敌人攻击的能力:这对于强化学习算法而言并不困难,因为它们玩游戏是逐帧进行的。

对于只有稀疏奖励,或需要计划超过未来数秒策略的游戏,目前的算法还很难应对。Gym Retro 数据集中的许多游戏都是稀疏奖励或需要计划的,因此,处理整个数据集中的内容可能需要开发者找到全新技术。

原文链接:https://blog.openai.com/gym-retro/

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 目标检测和深度学习(The_leader_of_DL_CV)

原文发表时间:2018-05-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

动态丨Facebook 发布开源框架 PyTorch, Torch 终于被移植到 Python 生态圈

本周,Facebook 的 AI 研究团队发布了一个 Python 工具包,专门针对 GPU 加速的深度神经网络(DNN)编程。它有望辅助、或在一定程度上替代,...

32670
来自专栏量子位

AI产品开发指南:5大核心环节搞定机器学习工作流

王小新 编译自 Quora 量子位 出品 | 公众号 QbitAI ? Python写得像英语一样6,神经网络、决策树烂熟于心,但如果不能动手将这些算法部署到实...

40550
来自专栏AI研习社

OpenAI 发布完整版游戏强化学习研究平台 Gym Retro

我们发布了用于游戏研究的强化学习平台完整版 Gym Retro,支持的游戏从大约 70 多个雅达利和 30 多个世嘉游戏扩展到各种仿真器支持的 1000 多个游...

14530
来自专栏挖掘大数据

推荐系列02,每个职场中的你都有必要了解的推荐系统常识

接上一篇《推荐系列01:人工智能与推荐系统》,上一篇文章主要解决的什么是推荐系统以及为什么要有推荐系统的问题。这一篇我们关注的是,更细节的一些东西,把推荐系统的...

35300
来自专栏新智元

【开源】北大团队大规模稀疏数据机器学习库xLearn,c++ trending 已超TensorFlow

编辑:弗格森 【新智元导读】 机器学习博士马超近日在微博上介绍他和导师肖臻教授一起开发的一款专门针对大规模稀疏数据的机器学习库xLearn并开源。并称, vi...

50380
来自专栏AI研习社

想快速部署机器学习项目?来看看几大主流机器学习服务平台对比吧

日前,kdnuggets 上的一篇文章对比了三大公司(谷歌、微软和亚马逊)提供的机器学习服务平台,对于想要启动机器学习项目的公司或是数据科学新手来说,提供了非常...

588170
来自专栏ATYUN订阅号

微软为Power BI推出AI模型构建器、关键驱动分析和Azure机器学习集成

微软的Power BI是一种商业分析服务,用户可以在不具备编程经验或深厚技术专长的情况下创建报告、仪表盘等更多内容。公司今天宣布了一些新的AI功能,包括图像识别...

10820
来自专栏PPV课数据科学社区

关联分析案例:一套数据学会如何从数据到信息到决策

俗话说,忘记历史就是背叛自己,今天这篇用此做开场再合适不过。 这一篇将根据一个虚拟的故事,来介绍如何通过历史数据来帮助一个销售人员发现规律信息从而辅助他来做一些...

46440
来自专栏专知

势头强劲: PyTorch周年大事记盘点

【导读】 1月19日,PyTorch团队对PyTorch发布一年来的成长轨迹做了总结。在过去一年里,PyTorch资源包的下载量超50万次、PyTorch频频出...

37450
来自专栏ATYUN订阅号

谷歌发布自己的前端机器学习库——deeplearn.js

目前看来,在人工智能时代,不管是手机、汽车,还是音箱等智能产品,没有用上的人都不好意思和别人打招呼;此外,谷歌和Facebook都分别在TensorFlow和C...

42740

扫码关注云+社区

领取腾讯云代金券