专栏首页UAI人工智能Google AI dopamine 多巴胺强化学习框架

Google AI dopamine 多巴胺强化学习框架

Dopamine

Google 的 github 账户最新发布一个框架,叫做 Dopamine。

有了 Dopamine 可以帮助大家更快地设计强化学习原型。

值得试试。下图是在 Seaquest 游戏上的算法比对,可以看到 Rainbow 最厉害了。

其设计原则如下:

  • Easy experimentation: Make it easy for new users to run benchmark experiments.
  • Flexible development: Make it easy for new users to try out research ideas.
  • Compact and reliable: Provide implementations for a few, battle-tested algorithms.
  • Reproducible: Facilitate reproducibility in results.

为啥要有这个框架:主要为了实现 DeepMind 提出的各种复杂 RL 算法,包括 Rainbow 这个集大成者。下面是三个关键点:

  • n-step Bellman updates (see e.g. Mnih et al., 2016)
  • Prioritized experience replay (Schaul et al., 2015)
  • Distributional reinforcement learning (C51; Bellemare et al., 2017)

声明了这也不是官方产品,但值得你去了解学习。

小伙伴们已经试过了,非常方便。

(dopamine-env) neil@neil-workstation:~/Projects/dopamine$ python -um dopamine.atari.train \

> --agent_name=dqn \

> --base_dir=/tmp/dopamine \

> --gin_files='dopamine/agents/dqn/configs/dqn.gin'

2018-08-28 02:19:22.543030: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA

I0828 02:19:22.543931 139761019946752 tf_logging.py:115] Creating DQNAgent agent with the following parameters:

I0828 02:19:22.544101 139761019946752 tf_logging.py:115] gamma: 0.990000

I0828 02:19:22.544147 139761019946752 tf_logging.py:115] update_horizon: 1.000000

I0828 02:19:22.544184 139761019946752 tf_logging.py:115] min_replay_history: 20000

I0828 02:19:22.544219 139761019946752 tf_logging.py:115] update_period: 4

I0828 02:19:22.544251 139761019946752 tf_logging.py:115] target_update_period: 8000

I0828 02:19:22.544284 139761019946752 tf_logging.py:115] epsilon_train: 0.010000

I0828 02:19:22.544317 139761019946752 tf_logging.py:115] epsilon_eval: 0.001000

I0828 02:19:22.544348 139761019946752 tf_logging.py:115] epsilon_decay_period: 250000

I0828 02:19:22.544380 139761019946752 tf_logging.py:115] tf_device: /gpu:0

I0828 02:19:22.544410 139761019946752 tf_logging.py:115] use_staging: True

I0828 02:19:22.544441 139761019946752 tf_logging.py:115] optimizer: <tensorflow.python.training.rmsprop.RMSPropOptimizer object at 0x7f1c7c2adf90>

I0828 02:19:22.545419 139761019946752 tf_logging.py:115] Creating a OutOfGraphReplayBuffer replay memory with the following parameters:

I0828 02:19:22.545480 139761019946752 tf_logging.py:115] observation_shape: 84

I0828 02:19:22.545521 139761019946752 tf_logging.py:115] stack_size: 4

I0828 02:19:22.545557 139761019946752 tf_logging.py:115] replay_capacity: 1000000

I0828 02:19:22.545592 139761019946752 tf_logging.py:115] batch_size: 32

I0828 02:19:22.545624 139761019946752 tf_logging.py:115] update_horizon: 1

I0828 02:19:22.545656 139761019946752 tf_logging.py:115] gamma: 0.990000

I0828 02:19:23.212261 139761019946752 tf_logging.py:115] Beginning training...

I0828 02:19:23.212377 139761019946752 tf_logging.py:115] Starting iteration 0

Steps executed: 53072 Episode length: 812 Return: -21.00

...

让子弹飞一会儿~

关注我们,后会有期。

本文分享自微信公众号 - UAI人工智能(UniversityAI),作者:NeilNet

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用 Ray 用 15 行 Python 代码实现一个参数服务器

    参数服务器是很多机器学习应用的核心部分。其核心作用是存放机器学习模型的参数(如,神经网络的权重)和提供服务将参数传给客户端(客户端通常是处理数据和计算参数更新的...

    用户1107453
  • 实战派 | AI摸爬滚打之Win7+docker安装PaddlePaddle全纪实

    用户1107453
  • 服务全球AI开发者,University AI携手百度AI为你推开现代人工智能大门

    用户1107453
  • 某棋牌游戏大厅座位内存分析过程

    目标:通过内存判断每个座位上是否有玩家。所以,要找到每个桌子、每个座位相关内存的排布规律及其内存基址。

    用户2135432
  • 关于批次效应矫正后出现负值

      a batch effect occurs when non-biological factors in an experiment cause chang...

    生信技能树
  • 无须字母构建XSS向量

    要求 之前我在玩一个XSS游戏的时候突然有了些想法,本着分享的原则,于是便有了这篇文章。在此,我将分享一个此前没有接触过的一个XSS攻击向量。 相同水平的前提...

    FB客服
  • 赢了围棋还能做面包?深度学习能够为您的企业带来什么好处?

    您也许不是 F1 赛车的狂热车迷,但是,很难不去欣赏这样迷人的机器。流线造型、美丽车身、疾速飞驰、全车充斥着迷人的科技,甚至巴望着自己狭窄的小车也能有一点点的相...

    GPUS Lady
  • 解读 | IaaS、PaaS和SaaS之间有什么区别?

    随着时间的推移,云计算技术对于组织来说变得越来越重要。在大量的应用程序运行在不同的云模型时,组织需要做一些工作来检查这些解决方案是否更能满足其需求。组织需要确定...

    CloudBest
  • Colab提供了免费TPU,机器之心帮你试了试

    我们在网上只发现比较少的信息与资源,最开始介绍 Colab 免费 TPU 的内容还是谷歌开发者 Sam Wittevee 最近的演讲 PPT。因此本文的测试和探...

    机器之心
  • 连接池你用对了吗?一次Unexpected end of stream异常的排查

    近期迁移了部分应用到K8s中,业务开发人员反馈说,会发现频繁出现 : redis.clients.jedis.exceptions.JedisConnectio...

    落跑架构师M

扫码关注云+社区

领取腾讯云代金券