前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一种基于Tensorflow的强化学习框架: Dopamine(多巴胺)

一种基于Tensorflow的强化学习框架: Dopamine(多巴胺)

作者头像
深度强化学习实验室
发布2019-11-21 13:05:13
1.2K0
发布2019-11-21 13:05:13
举报
文章被收录于专栏:深度强化学习实验室

强化学习,作为一种被认为通用人工智能的学习方式而被广泛研究,但主要也由业界领先组织,诸如DeepMind,OpenAI, 伯克利等,OpenAI 作为领先者,在强化学习方面率先推出自己的框架,其中baseline更是开源了很多强化学习算法用于测试Atria, 物理引擎等,但是 OpenAI 的强化学习训练环境也一直遭到不少抱怨,比如不太稳定、更新没有及时等而被吐槽。

在深度学习的学习过程中,我们使用了很多流行的学习框架,比如Caffe, pytorch,tensorflow等,当然tensorflow是其中比较好用的一个,因此,基于tensorflow去开发强化学习算法是目前最为快速和高效的方法,拥有一个独立的基于tensorflow的强化学习算法也一直是所有致力于强化学习人的梦。

今天,Google宣布开源基于 TensorFlow 的强化学习框架——Dopamine(多巴胺),大佬明星企业起名字总是个性,logo就是化学结构图,show the figure.

Dopamine反映了神经科学和强化学习研究之间强大的历史联系,它的目的是使这种推测性的研究能够推动根本性的发现。[注: 如果注意DeepMind的发展史,其实CEO Demis Hassabis从剑桥大学和伦敦大学学院(UCL)获得了计算机科学和认知神经科学的学位,他已经找到了“让科学研究更高效”的方法,并且在领导着一个“21世纪的阿波罗登月计划”],回到主题上,Google开源的这个 TensorFlow 强化学习框架强调三点:灵活、稳定和可重复性(reproducibility)。为此,配套开源的还包括一个专用于视频游戏训练结果的平台,以及四种不同的机器学习模型:DQN、C51、简化版的 Rainbow 智能体和 IQN(Implicit Quantile Network)。

为了实现可重复性,Github 代码包括 Arcade Learning Environment 支持的全部 60 个游戏的完整测试和训练代码,并遵循标准化经验评估结果的最佳实践。除了开源这个增强学习框架,谷歌还推出了一个网站,允许开发人员将多个训练中智能体的运行情况快速可视化。其他还有训练好的模型、原始统计日志和 TensorFlow event files,用于 TensorBoard 动态图的绘制

Dopamine安装方法(推荐Ubuntu OS)

首先设置虚拟环境:

这将创建一个名为dopamine-env的目录,其中包含虚拟环境。 最后一个命令激活环境。

然后,将依赖项安装到Dopamine:

在安装过程中,您可以安全地忽略以下错误消息:tensorflow 1.10.1要求numpy <= 1.14.5> = 1.13.3,但是您将拥有不兼容的numpy 1.15.1。

最后,下载多巴胺源:

运行测试

通过运行以下命令来测试安装是否成功:

标准Atari 2600实验的切入点是dopamine / atari / train.py。 要运行基本DQN代理,

默认情况下,这将启动一个持续2亿帧的实验。 命令行界面将输出有关最新训练集的统计信息:

代码语言:javascript
复制
[...]
I0824 17:13:33.078342 140196395337472 tf_logging.py:115] gamma: 0.990000
I0824 17:13:33.795608 140196395337472 tf_logging.py:115] Beginning training...
Steps executed: 5903 Episode length: 1203 Return: -19.

需要通过一下安装依赖包:

参考文档:

[1].https://github.com/google/dopamine

[2].新智元

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度强化学习实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档