Google发布“多巴胺”开源强化学习框架,三大特性全满足

编译整理 | Just

编辑 | 阿司匹林

出品 | AI科技大本营

强化学习是一种非常重要 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手,它也是 DeepMind 的深度 Q 网络(DQN)的核心部分,它可以在多个 workers 之间分步学习,例如,在 Atari 2600 游戏中实现“超人”性能。

麻烦的是,强化学习框架需要花费大量时间来掌握一个目标,而且框架往往是不灵活和不总是稳定的。

但不用担心,Google 近日发布了一个替代方案:基于 TensorFlow 的开源强化学习框架 Dopamine(多巴胺)

Google 的博文中提到,这个基于 Tensorflow 的强化学习框架,旨在为 RL 的研究人员提供灵活性,稳定性和可重复性的研究。受到大脑中奖励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该平台旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。

除了强化学习框架的发布,谷歌还推出了一个网站(https://google.github.io/dopamine/baselines/plots.html),允许开发人员快速可视化多个智能体的训练运行情况。他们希望,这一框架的灵活性和易用性将使研究人员能积极尝试新的想法,不管是渐进式还是激进式的想法。

以下为 Google 博客详细内容,AI科技大本营编译:

引入灵活和可重复的强化学习研究的新框架

强化学习(RL)研究在过去几年中取得了许多重大进展。这些进步使得智能体可以以超人类级别的能力玩游戏。比如 Atari 游戏中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。

具体而言,在 DQN 中引入 replay memories 可以利用以前的智能体经验,大规模的分布式训练可以在多个 workers 之间分配学习过程,分布式方法允许智能体模拟完整的分布过程,而不仅仅是模拟它们期望值,以学习更完整的图景。这种类型的进展很重要,因为出现这些进步的算法还适用于其他领域,例如机器人技术。

通常,这种进步都来自于快速迭代设计(通常没有明确的方向),以及颠覆既定方法的结构。然而,大多数现有的 RL 框架并没有结合灵活性和稳定性以及使研究人员能够有效地迭代 RL 方法,并因此探索可能没有直接明显益处的新研究方向。此外,从现有框架再现结果通常太耗时,这可能导致科学的再现性问题。

今天,我们推出了一个新的基于 Tensorflow 的框架,旨在为 RL 的研究人员提供灵活性、稳定性和可重复性。受到大脑中奖励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该平台旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。

易用性

清晰和简洁是该框架设计中要考虑的两个关键因素。我们提供更精简的代码(大约 15 个Python 文件),并且有详细记录。这是通过专注于 Arcade 学习环境(一个成熟的,易于理解的基准)和四个基于 value 的智能体来实现的:DQN,C51,一个精心策划的 Rainbow 智能体的简化版本,以及隐式分位数网络(Implicit Quantile Network)智能体,这已在上个月的 ICML 大会上已经发表。我们希望这种简洁性使研究人员能够轻松了解智能体内部的运作状况,并积极尝试新的想法。

可重复性

我们对重复性在强化学习研究中的重要性特别敏感。为此,我们为代码提供完整的测试覆盖率,这些测试也可作为其他文档形式。此外,我们的实验框架遵循 Machado 等人给出的关于使用 Arcade 学习环境标准化经验评估的建议。

基准测试

对于新的研究人员来说,能够根据既定方法快速对其想法进行基准测试非常重要。因此,我们为 Arcade 学习环境支持的 60 个游戏提供四个智能体的完整培训数据,可用作 Python pickle 文件(用于使用我们框架训练的智能体)和 JSON 数据文件(用于与受过其他框架训练的智能体进行比较);我们还提供了一个网站,你可以在其中快速查看 60 个游戏中所有智能体的训练运行情况。

下面展示我们在 Seaquest 上的 4 个代理的训练情况,这是由 Arcade 学习环境支持的一种 Atari 2600 游戏。

在 Seaquest 上的 4 名智能体参加了训练。x 轴表示迭代,其中每次迭代是 100 万个游戏帧(4.5 小时的实时游戏);y 轴是每场比赛获得的平均分数。阴影区域显示的是来自 5 次独立运行的置信区间。

我们还提供已经训练好的深度网络,原始统计日志以及用 Tensorboard 绘图的 Tensorflow 事件文件。这些都可以在网站的下载部分找到。

希望我们框架的灵活性和易用性将使研究人员敢于尝试新的想法,包括渐进式和激进式的想法。我们已经积极地将它用于我们的研究,并发现它能够灵活且快速迭代许多想法。我们很高兴可以为更大的社区做些贡献。

GitHub 链接:

https://github.com/google/dopamine/tree/master/docs#downloads

参考链接:

https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

https://venturebeat.com/2018/08/27/google-releases-open-source-reinforcement-learning-framework-for-training-ai-models/

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2018-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

您的七夕礼物到了,请查收

去年 3 月,谷歌联手 OpenAI 等推出了全新的开放式期刊平台 Distill,其指导委员会包括 Yoshua Bengio、Ian Goodfellow ...

13760
来自专栏PPV课数据科学社区

常用的5种数据可视化方法

小编最近在研究后台的设计,涉及到数据统计分析模块的数据的呈现方面,搜集学习材料的时候发现这篇文章,推荐给有需求的童靴们共同学习。在文章中,原作者跟大家分享数据可...

31340
来自专栏ATYUN订阅号

Airbnb利用深度学习增强平台的搜索建议

在线预订平台Airbnb拥有超过500万的房源,以及成千上万的旅游,徒步旅行和其他旅行体验。这些需要大量的筛选,Airbnb公司认为AI可以伸出援助之手。

10720
来自专栏AI星球

让你"又爱又恨"的推荐系统--程序猿篇

推荐系统的应用场景,我相信在日常生活中大家基本都会接触到。例如,作为一个篮球爱好者,在淘宝上搜索的“kobe X 篮球鞋”,然后之后一段时间打开淘宝,首页界面可...

2.2K40
来自专栏PPV课数据科学社区

【新闻】大数据可视化的新动态

大数据可视化的新动态 Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善...

41050
来自专栏量子位

读取脑磁波,神经网络知道你在「犹豫不定」

在神经生物学里,这个神经网络可以分类神经元发出的信号,以及检测出脑相关的病理活动,比方说癫痫,还有神经退化性疾病,帕金森和老年痴呆等。

12920
来自专栏数据派THU

独家 | 一文读懂推荐系统知识体系-下(评估、实战、学习资料)

? 本文主要阐述: 推荐系统的评估(Evaluation) 推荐系统的冷启动问题(Cold Start) 推荐系统实战(Actual Combat) 推荐系统...

2.4K70
来自专栏CDA数据分析师

4个步骤,构建一个有指导的数据挖掘模型

数据挖掘的目的,就是从数据中找到更多的优质用户。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模...

362100
来自专栏新智元

【深度学习框架大PK】褚晓文教授:五大深度学习框架三类神经网络全面测评(23PPT)

【新智元导读】 香港浸会大学褚晓文教授团队在2016年推出深度学习工具评测的研究报告《基准评测 TensorFlow、Caffe、CNTK、MXNet、Torc...

45680
来自专栏量子位

DeepMind新智能体架构Unicorn:持续学习能力胜过多个基准智能体

安妮 编译自 arXiv 量子位 出品 | 公众号 QbitAI 出于未知原因,DeepMind为自己研究起的名字总饱含诗意,在学术界中显得尤为画风清奇。 比如...

39650

扫码关注云+社区

领取腾讯云代金券