强化学习,作为一种被认为通用人工智能的学习方式而被广泛研究,但主要也由业界领先组织,诸如DeepMind,OpenAI, 伯克利等,OpenAI 作为领先者,在强化学习方面率先推出自己的框架,其中baseline更是开源了很多强化学习算法用于测试Atria, 物理引擎等,但是 OpenAI 的强化学习训练环境也一直遭到不少抱怨,比如不太稳定、更新没有及时等而被吐槽。
在深度学习的学习过程中,我们使用了很多流行的学习框架,比如Caffe, pytorch,tensorflow等,当然tensorflow是其中比较好用的一个,因此,基于tensorflow去开发强化学习算法是目前最为快速和高效的方法,拥有一个独立的基于tensorflow的强化学习算法也一直是所有致力于强化学习人的梦。
今天,Google宣布开源基于 TensorFlow 的强化学习框架——Dopamine(多巴胺),大佬明星企业起名字总是个性,logo就是化学结构图,show the figure.
Dopamine反映了神经科学和强化学习研究之间强大的历史联系,它的目的是使这种推测性的研究能够推动根本性的发现。[注: 如果注意DeepMind的发展史,其实CEO Demis Hassabis从剑桥大学和伦敦大学学院(UCL)获得了计算机科学和认知神经科学的学位,他已经找到了“让科学研究更高效”的方法,并且在领导着一个“21世纪的阿波罗登月计划”],回到主题上,Google开源的这个 TensorFlow 强化学习框架强调三点:灵活、稳定和可重复性(reproducibility)。为此,配套开源的还包括一个专用于视频游戏训练结果的平台,以及四种不同的机器学习模型:DQN、C51、简化版的 Rainbow 智能体和 IQN(Implicit Quantile Network)。
为了实现可重复性,Github 代码包括 Arcade Learning Environment 支持的全部 60 个游戏的完整测试和训练代码,并遵循标准化经验评估结果的最佳实践。除了开源这个增强学习框架,谷歌还推出了一个网站,允许开发人员将多个训练中智能体的运行情况快速可视化。其他还有训练好的模型、原始统计日志和 TensorFlow event files,用于 TensorBoard 动态图的绘制
Dopamine安装方法(推荐Ubuntu OS)
首先设置虚拟环境:
这将创建一个名为dopamine-env的目录,其中包含虚拟环境。 最后一个命令激活环境。
然后,将依赖项安装到Dopamine:
在安装过程中,您可以安全地忽略以下错误消息:tensorflow 1.10.1要求numpy <= 1.14.5> = 1.13.3,但是您将拥有不兼容的numpy 1.15.1。
最后,下载多巴胺源:
运行测试
通过运行以下命令来测试安装是否成功:
标准Atari 2600实验的切入点是dopamine / atari / train.py。 要运行基本DQN代理,
默认情况下,这将启动一个持续2亿帧的实验。 命令行界面将输出有关最新训练集的统计信息:
[...]
I0824 17:13:33.078342 140196395337472 tf_logging.py:115] gamma: 0.990000
I0824 17:13:33.795608 140196395337472 tf_logging.py:115] Beginning training...
Steps executed: 5903 Episode length: 1203 Return: -19.
需要通过一下安装依赖包:
参考文档:
[1].https://github.com/google/dopamine
[2].新智元