前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OpenAI开发AI训练环境CoinRun,增强智能体经验的通用性

OpenAI开发AI训练环境CoinRun,增强智能体经验的通用性

作者头像
AiTechYun
发布2018-12-25 16:59:24
8310
发布2018-12-25 16:59:24
举报
文章被收录于专栏:ATYUN订阅号

编译:chux

出品:ATYUN订阅号

强化学习有一个问题:它不会实现可广泛通用的模型,受过训练的智能体很难将它们的经验转移到新环境中。这是一个众所周知的挑战,但它并没有阻止数据科学家在其接受训练的环境中对系统进行基准测试。这会导致过度拟合难以量化。

OpenAI正在开发AI训练环境CoinRun来解决这个问题,该训练环境为智能体将其体验转移到不熟悉的场景的能力提供了一个指标。它就如同一个经典的平台游戏,包含了敌人,目标和不同难度的关卡。之前OpenAI推出过Spinning Up,一个旨在教授任何深度强化学习的程序。

OpenAI团队表示,“CoinRun在复杂性方面取得了理想的平衡:环境比传统平台游戏Sonic the Hedgehog简单得多,但它仍然对最先进的算法提出了一个挑战,CoinRun的级别是程序生成的,为智能体提供了大量且易于量化的训练数据。”

正如OpenAI所解释的那样,强化学习环境中的先前工作主要集中在程序生成的迷宫,社区项目,如通用视频游戏AI框架,以及像Sonic the Hedgehog这样的游戏,通过训练和测试智能体在不同级别上进行测量。相比之下,CoinRun在每个级别结束时为智能体提供单一奖励。

AI智能体必须应对固定和移动的障碍,碰撞会导致死亡。当收集足够的硬币或完成1000个时间步后,游戏结束。

OpenAI还开发了两个额外的环境来检验过度拟合:CoinRun-Platforms和RandomMazes。第一个包含随机分散在平台上的几个硬币,迫使智能体积极探索关卡并偶尔做一些回溯。而RandomMazes是一个简单的迷宫导航任务。

为了验证CoinRun,CoinRun-Platforms和RandomMazes,OpenAI训练了9个智能体,每个具有不同数量的训练级别。前8名接受了100到16000个级别的训练,最后一名接受了不受限制的200万个级别的训练,这样就不会两次看到相同的级别。

智能体经历了4000个训练级别的过度装配,甚至达到16000个训练级别,而表现最佳的智能体是那些进行无限制级别训练的。在CoinRun-Platforms和RandomMazes中,智能体在所有情况下都出现了过度拟合。

OpenAI表示,这些结果为加强学习中通用化挑战提供了有价值的见解。“使用程序生成的CoinRun环境,我们可以准确地量化这种过度拟合,通过此指标,可以更好地评估关键架构和算法决策。我们相信从这种环境中汲取的经验教训将适用于更复杂的环境,我们希望广泛利用这一基准,以及其他类似的基准来迭代更具普遍性的智能体。”

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-12-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档