前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DeepMind开源强化学习环境,灵活可配置,计算资源有限的小型实验室也能用

DeepMind开源强化学习环境,灵活可配置,计算资源有限的小型实验室也能用

作者头像
量子位
发布2019-08-21 14:14:39
5340
发布2019-08-21 14:14:39
举报
文章被收录于专栏:量子位量子位
铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI

想搞强化学习,但算力门槛让不少人望而却步。

想想DeepMind训练的通用棋类AI AlphaZero,碾压一票同类选手,但堆砌了实验室里5064个TPU的算力。谷歌财大气粗,但小实验室就无法复制了。

没有那么大算力,也可以进行强化学习。

这一次,“专注强化学习一百年”的DeepMind又出手了,推出了一个小规模的强化学习环境,适合算力有限的实验室。

这个强化学习环境名为Spriteworld的强化学习环境,由二维简单形状组成的环境,可以进行简单移动。

DeepMind表示,别看这个场景简单,但能为多个物体场景中提供尽可能多的灵活性,同时保留尽可能简单的界面。

一经发出,DeepMind推特就收获了400赞,网友大呼:Fascinating(太吸引人了)~

精灵世界

Spriteworld(精灵世界)是一个基于Python的强化学习环境,里面各种不同的形状都是一个精灵,可以在整个界面中自由移动。

这是一个多维度环境,形状的位置大小颜色角度速度都可以不断变化,自由调节。

这个世界里没有物理引擎,所以默认情况下,里面的“精灵”们会互相重叠,但不会交互或是碰撞。

研究人员演示了环境中可操作的3种任务,比如这个目标寻找任务,智能体需要将目标精灵,也就是绿色正方形方块带到环境中心。

比如聚类任务,智能体需要根据自身的颜色排列成簇。

在排列任务中,智能体必须依据其自身颜色将目标精灵放置到目标位置,其中颜色与位置有一定的关联关系。

DeepMind表示,可以通过动作空间引入各个精灵之间的交互,并且动作空间中的每个时间步可以同步给所有精灵。

举个例子,比如DiscreteEmbodied动作空间实现了一种基本的物理形式,一个智能体可以携带其他智能体。

DeepMind强化学习资源集合

如果你想要研究强化学习,那么DeepMind一定是你不可错过的领路人。

这个“专注强化学习一百年”的研究机构,已经开放了大量的强化学习研究资源。

开源强化学习框架多巴胺(Dopamine),基于基于TensorFlow,代码紧凑,简洁可复现。

博客: https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

代码: https://github.com/google/dopamine/tree/master/docs#downloads

开源强化学习库松露(TRFL),模块化,强调灵活度:如果把造智能体想象成搭积木,许多关键的、常用的木块都在这里集合了。

并且库里面的组件,虽然来源各不相同,但都经过严密测试,因而相对可靠;并且只要一个API,对开发者比较友好。

GitHub地址: https://github.com/deepmind/trfl/

开源强化学习研究环境Control Suite,设计了一组有着标准化结构、可解释奖励的连续控制任务,还为强化学习Agent提供一组性能测试指标。

这些任务基于MoJoCo物理引擎,所用的语言是Python。DeepMind在GitHub上放出的源代码中,就包含基于MoJoCo的Python强化学习环境,以及为MoJoCo提供Python绑定的软件库。

论文: https://arxiv.org/pdf/1801.00690.pdf

代码: https://github.com/deepmind/dm_control

开源分布式强化学习架构IMPALA,让一个Agent学会多种技能。

IMPALA的灵感来自于热门的A3C架构,后者使用多个分布式actor来学习agent的参数。在类似这样的模型中,每个actor都使用策略参数的一个副本,在环境中操作。

代码: https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

开源强化学习训练环境Google Research Football,智能体可以在这个宛若FIFA的世界里自由踢球,学到更多踢球技巧。

用足球进行强化学习训练,对AI来说更有挑战性,不仅要能控球,还得搞懂传球、角球这些概念,知道什么时候会犯规吃红牌黄牌,同时训练出足够机智的策略。

论文: https://github.com/google-research/football/blob/master/paper.pdf?raw=True

代码: https://github.com/google-research/football

传送门

Github地址: https://github.com/deepmind/spriteworld

推特介绍: https://twitter.com/DeepMindAI/status/1163478904092471296

作者系网易新闻·网易号“各有态度”签约作者

活动推荐 | AI计算领域技术盛会

2019人工智能计算大会将于8月27日-28日在北京举办,旨在围绕人工智能的产业需求研讨AI计算,促进AI技术创新、合作发展与人才培养。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 精灵世界
  • DeepMind强化学习资源集合
  • 传送门
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档