专栏首页深度强化学习实验室DeepMind发布强化学习库 RLax

DeepMind发布强化学习库 RLax

深度强化学习实验室报道

来源:Github/DeepMind

作者:DeepRL

|| RLax及背景

强化学习主要用于研究学习系统(智能体)的问题,该学习系统必须学习与环境进行交互的信息。智能体和环境在不连续的步骤上进行交互。在每个步骤中,智能体都会选择一个动作,并会提供一个返回的环境状态(观察)状态(部分)和标量反馈信号(奖励)。智能体的行为以行为的概率分布为特征,该分布取决于对环境(策略)的过去观察。智能体寻求一种策略,该策略将从任何给定步骤中最大化从该点开始(返回)将收集的折扣累积奖励。智能体策略或环境动态本身通常是随机的。在这种情况下,回报是一个随机变量,并且通常将更精确的智能体策略指定为在智能体和环境的随机性下最大化回报期望(值)的策略。

RLax(发音为“ relax”)是建立在JAX之上的库,它公开了用于实施强化学习智能体的有用构建块。

|| 安装与使用

可以使用以下命令从github直接使用pip安装RLax:

pip install git+git://github.com/deepmind/rlax.git.

然后可以使用JAX的jax.jit函数为不同的硬件(例如CPU,GPU,TPU)及时编译所有RLax代码。

|| 强化学习算法

增强学习算法包含三个原型系列:

  • 那些估计状态和动作的价值,并通过检查推断策略的行为(例如,通过选择估计值最高的动作)
  • 学习环境模型(能够预测观察结果和奖励),并通过计划推断策略。
  • 那些参数化可以直接执行的策略的参数,

无论如何,策略,价值或模型只是功能。在深度强化学习中,此类功能由神经网络表示。在这种情况下,通常将强化学习更新公式化为可区分的损失函数(类似于(非)监督学习)。在自动区分下,将恢复原始更新规则。

但是请注意,尤其是只有以正确的方式对输入数据进行采样时,更新才有效。例如,仅当输入轨迹是当前策略的无偏样本时,策略梯度损失才有效。即数据是符合政策的。该库无法检查或强制执行此类约束。但是,在函数的文档字符串中提供了指向描述如何使用每种操作的论文的链接。

|| 命名约定和开发人员指南

我们为与单一经验流交互的代理定义功能和操作。JAX构造vmap可用于将这些相同的功能应用于批处理(例如,支持重放和并行数据生成)。

许多功能在连续的时间步中考虑策略,行动,奖励,价值,以便计算其输出。在这种情况下,qm_t和tm1通常用于说明每个输入是在哪个步骤上生成的,例如:

  • q_tm1:转换的源状态中的操作值。
  • a_tm1:在源状态下选择的操作。
  • r_t:在目标状态下收集的结果奖励。
  • discount_t:与转换关联的折扣。
  • q_t:目标状态下的操作值。

为每个功能提供了广泛的测试。当使用jax.jit编译为XLA以及使用jax.vmap执行批处理操作时,所有测试还应验证rlax函数的输出。

|| 引用

@software{rlax2020github,
  author = {David Budden and Matteo Hessel and John Quan and Steven Kapturowski},
  title = {{RL}ax: {R}einforcement {L}earning in {JAX}},
  url = {http://github.com/deepmind/rlax},
  version = {0.0.1a0},
  year = {2020},
}

更多细节查看Github

https://github.com/deepmind/rlax

本文分享自微信公众号 - 深度强化学习实验室(Deep-RL),作者:DeepRL

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 博士万字总结 || 多智能体强化学习(MARL)大总结与论文详细解读

    最近由于写论文的原因,梳理了一下近几年的多智能体强化学习(MARL)算法,在这里做一个总结。下面遵循综述 Is multiagent deep reinforc...

    J.Q.Wang@2048
  • AI领域:如何做优秀研究并写高水平论文?

    本文来源于博主知乎:https://zhuanlan.zhihu.com/p/82659139

    J.Q.Wang@2048
  • 【RLChina2020公开课课件】 Lecture-4.pdf

    https://rlchina.org/lectures/lecture0.pdf

    J.Q.Wang@2048
  • GitHub上15 个优秀开源项目告诉你如何上手数据科学!

    关键时刻,第一时间送达! 作为一名狂热的数据科学爱好者,本文作者整理了 2017 年 Github 上尤为实用的数据科学资源,希望和大家共同学习。 ? 学习资源...

    企鹅号小编
  • AI与深度学习重点回顾:Denny Britz眼中的2017

    【导读】近日,博客WILDML的作者Denny Britz把他眼中的2017年AI和深度学习的大事进行了一番梳理和总结:从AlphaGo的自主学习到AlphaG...

    WZEARW
  • Shell基础知识

    1.变量首个字符必须为字母或者下划线,变量赋值等号前后不能有空格 2.可以用${hello}来表示取出变量hello的值 3.let “var+23″可以执...

    苦咖啡
  • 一文概述 2018 年深度学习 NLP 十大创新思路

    AI 科技评论按:Sebastian Ruder 是一位 NLP 方向的博士生、研究科学家,目前供职于一家做 NLP 相关服务的爱尔兰公司 AYLIEN,同时,...

    AI研习社
  • 一文概述 2018 年深度学习 NLP 十大创新思路

    AI 科技评论按:Sebastian Ruder 是一位 NLP 方向的博士生、研究科学家,目前供职于一家做 NLP 相关服务的爱尔兰公司 AYLIEN,同时,...

    AI科技评论
  • 13篇人工智能专家的必读论文

    业内顶尖人工智能专家推荐哪些研究文章?找出具体文章以及原因,然后一定要把每一篇都加入到阅读清单中去。

    人工智能小咖
  • 新年快乐!这是份值得收藏的2017年AI与深度学习要点大全

    若朴 夏乙 编译自 WILDML 量子位 出品 | 公众号 QbitAI 2017已经正式离我们远去。 过去的一年里,有很多值得梳理记录的内容。博客WILDML...

    量子位

扫码关注云+社区

领取腾讯云代金券