令人激动!谷歌推强化学习新框架「多巴胺」,基于TensorFlow,已开源丨附github

郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI

上周那个在DOTA2 TI8赛场上“装逼失败”的OpenAI Five,背后是强化学习的助推。

其实不仅仅是OpenAI Five,下围棋的AlphaGo和AlphaGo Zero、玩雅达利街机游戏的DeepMind DQN(deep Q-network),都离不开强化学习(Reinforcement Learning)。

现在,谷歌发布了一个基于TensorFlow的强化学习开源框架,名叫Dopamine

另外,还有一组Dopamine的教学colab。

和它的名字Dopamine(多巴胺)一样,新框架听上去就令人激动。

清晰,简洁,易用

新框架在设计时就秉承着清晰简洁的理念,所以代码相对紧凑,大约是15个Python文件,基于Arcade Learning Environment (ALE)基准,整合了DQN、C51、 Rainbow agent精简版和ICML 2018上的Implicit Quantile Networks。

可再现

新框架中代码被完整的测试覆盖,可作为补充文档的形式,也可以用ALE来评估。

基准测试

为了让研究人员能快速比较自己的想法和已有的方法,该框架提供了DQN、C51、 Rainbow agent精简版和Implicit Quantile Networks的玩ALE基准下的那60个雅达利游戏的完整训练数据,以Python pickle文件和JSON数据文件的格式存储,并且放到了一个可视化网页中。

另外,新框架中还有训练好的深度网络、原始统计日志,以及TensorBoard标注好的TensorFlow事件文件。

传送门

开源框架资源

Dopamine谷歌博客: https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Dopamine github下载: https://github.com/google/dopamine/tree/master/docs#downloads

colabs: https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

游戏训练可视化网页: https://google.github.io/dopamine/baselines/plots.html

相关资料

ALE基准: https://arxiv.org/abs/1207.4708

DQN(DeepMind): https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

C51(ICML 2017): https://arxiv.org/abs/1707.06887

Rainbow: https://arxiv.org/abs/1710.02298

Implicit Quantile Networks(ICML 2018): https://arxiv.org/abs/1806.06923

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/4/1

注意下面很多链接需要科学上网,无奈国情如此 1. TensorFlow开发者峰会昨天召开,我觉得有趣的演讲有 - TF Hub ("一键"transfer l...

3348
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/6/3

1. Judea Pearl上次在NIPS有一张令人唏嘘的照片,不过现在他又回来了,发了新书也给了一个访谈,说深度学习就像是curve fitting(我觉得没...

1154
来自专栏思影科技

《大话脑成像》系列之九 —— 由 ALFF 说开去

看到这个标题有些朋友表示很不解,为什么是之九,不是第十二吗? 我告诉您,没有为什么,因为我任性(其实是因为漏掉了一期,显得不工整,现在补上) ...

4347
来自专栏量子位

和免疫荧光标记说拜拜 | 谷歌Cell论文:深度学习模型预测荧光位置

常用的相差显微镜观察法,是从生物组织的一侧给光,对细胞损伤小,且材料准备过程非常简单。

1333
来自专栏量子位

一样的打游戏,不一样的酷

夏乙 问耕 假装发自 凹非寺 量子位 出品 | 公众号 QbitAI ? 假期模式已经开启了~ 学生党已经赋闲在家,工业党不少也已带着橘子返乡。 阖家欢乐,面对...

3767
来自专栏安全领域

机器学习,流式IoT和医疗设备互联

现如今,IoT数据,实时流式数据分析(streaming analytics),机器学习以及分布式计算的组合相比之前有了长足的进步,同时成本也比以前要低,这使得...

85710
来自专栏AI研习社

机器学习开发者应该收藏的 DIY 计算机视觉和深度学习项目

受到 Akshay Bahadur 所做伟大工作的鼓舞,在这篇文章中你将看到一些应用计算机视觉和深度学习的项目,包括具体实现和细节,你可以在自己的电脑上复现这些...

1793
来自专栏大数据文摘

边玩边入门深度学习,我们帮你找了10个简易应用demo

3963
来自专栏应兆康的专栏

Andrew Ng - 《Machine Learning Yearning》 Chapter 23-27

Machine Learning Yearning. 全新版本 本书作者是Andrew NG

70726
来自专栏CreateAMind

大规模人类活动检测比赛-模型代码论文ppt视频

1042

扫码关注云+社区

领取腾讯云代金券