专栏首页量子位Caffe2推出强化学习库,包含多个基于Caffe2的RL实现

Caffe2推出强化学习库,包含多个基于Caffe2的RL实现

安妮 编译自 Caffe2.ai 量子位 出品 | 公众号 QbitAI

今年4月,Facebook正式发布了轻量化和模块化的深度学习框架Caffe2。将近5个月后今天,Caffe2又推出了一组强化学习库RL_Caffe2。

强化学习(Reinforcement learning,RL)是机器学习的一个领域,它想教会智能体动作和行为的关系,并在环境中持续一段时间后将奖励最大化。

智能体可以是游戏代理、推荐系统、通知机器人或其他的决策系统。奖励可以是游戏中的点数、或者是网站上更多的参与度。

这个开源的Caffe2 RL框架中包含了一些在OpenAI Gym环境下基于Caffe2的RL实现:

1.DQN

一种Deep Q Learning网络的实现:

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf.

2.SARSA

这是假设输入是既定策略(on-policy)的简化的DQN:

生成数据的策略是实时更新的。SARSA的优点是在训练过程中,我们无需了解可能的动作,只需知道采取了行动就好了。

3.Actor-Critic

Actor Critic模型的实现:

https://arxiv.org/pdf/1509.02971.pdf

RL_Caffe2 GitHub地址:

https://github.com/caffe2/reinforcement-learning-models

无独有偶,几日前谷歌TensorFlow中构建并行强化学习算法的基础架构范例TensorFlow Agents也开源了。

TensorFlow Agents将OpenAI Gym的接口扩展到多个并行环境,用户可在TensorFlow中训练智能体并执行批量运算。此外,研究人员还提供了近端策略优化(Proximal Policy Optimization,PPO)中的实现BatchPPO。

TensorFlow Agents GitHub 地址:

https://github.com/tensorflow/agents

相关论文:

https://arxiv.org/abs/1709.02878

本文分享自微信公众号 - 量子位(QbitAI),作者:专注报道AI

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-09-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 谷歌大脑2017总结(Jeff Dean执笔,干货满满,值得收藏)

    李杉 维金 编译自 Google Blog 量子位 出品 | 公众号 QbitAI 谷歌AI Senior Fellow、谷歌大脑负责人Jeff Dean,按照...

    量子位
  • 微软10亿美元投资的OpenAI如何组织员工学习新知识?这里有一份课程与书籍清单

    在人工智能领域,知识的更新速度超乎想象,去年BERT还制霸各大排行榜,转眼XLNet又来了。

    量子位
  • 最强数据集集合:50个最佳机器学习公共数据集丨资源

    外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,量子位为大家分享一下~

    量子位
  • 魏艾斯博客重装 CentOS 系统和添加 Let’s Encrypt 免费 SSL 证书过程全记录

    常来魏艾斯博客的朋友都知道,老魏一直用的 http 协议,也有想法把 https 提到议程上来,总也不得时间。最近终于得了空赶紧规划一下,借机会把云服务器也重新...

    魏艾斯博客www.vpsss.net
  • 数据科学求职丨简历中应避免的四个错误

    通过了解数百家公司在招聘过程,我们了解到哪些简历是公司所青睐的,以及哪些简历是会被否决。

    CDA数据分析师
  • 手把手教你利用Pyecharts库对IP代理数据进行数据可视化分析

    前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇)和手把手教你使用Python爬取西次代理数据(下篇),木有赶上车的小伙伴,可以戳进去看看。今天...

    Python进阶者
  • jquery 介绍

    引入jquery: <script src="https://code.jquery.com/jquery-3.4.1.min.js"></script>

    用户5760343
  • 会学习!会写字!这个机器人太牛了!

    最近,《科学》杂志封面刊登了一篇重磅研究:人工智能终于能像人类一样学习,并通过了图灵测试。 这个人工智能像你一样学习写字 假设你从来没有见过菠萝。有一天,有人...

    小莹莹
  • 【译】如何真正学习数据科学

    对于数据科学领域来说,现在是一个令人振奋的时期。它是新兴的研究领域,但是却在飞速的发展。如今数据科学领域需要大量的数据科学家,而他们在硅谷年人均收入则超过10万...

    小莹莹
  • 动态代理详解

    动态代理它可以直接给某一个目标对象生成一个代理对象,而不需要代理类存在。     动态代理与代理模式原理是一样的,只是它没有具体的代理类,直接通过反射生成了一...

    黑泽君

扫码关注云+社区

领取腾讯云代金券