Caffe2推出强化学习库,包含多个基于Caffe2的RL实现

安妮 编译自 Caffe2.ai 量子位 出品 | 公众号 QbitAI

今年4月,Facebook正式发布了轻量化和模块化的深度学习框架Caffe2。将近5个月后今天,Caffe2又推出了一组强化学习库RL_Caffe2。

强化学习(Reinforcement learning,RL)是机器学习的一个领域,它想教会智能体动作和行为的关系,并在环境中持续一段时间后将奖励最大化。

智能体可以是游戏代理、推荐系统、通知机器人或其他的决策系统。奖励可以是游戏中的点数、或者是网站上更多的参与度。

这个开源的Caffe2 RL框架中包含了一些在OpenAI Gym环境下基于Caffe2的RL实现:

1.DQN

一种Deep Q Learning网络的实现:

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf.

2.SARSA

这是假设输入是既定策略(on-policy)的简化的DQN:

生成数据的策略是实时更新的。SARSA的优点是在训练过程中,我们无需了解可能的动作,只需知道采取了行动就好了。

3.Actor-Critic

Actor Critic模型的实现:

https://arxiv.org/pdf/1509.02971.pdf

RL_Caffe2 GitHub地址:

https://github.com/caffe2/reinforcement-learning-models

无独有偶,几日前谷歌TensorFlow中构建并行强化学习算法的基础架构范例TensorFlow Agents也开源了。

TensorFlow Agents将OpenAI Gym的接口扩展到多个并行环境,用户可在TensorFlow中训练智能体并执行批量运算。此外,研究人员还提供了近端策略优化(Proximal Policy Optimization,PPO)中的实现BatchPPO。

TensorFlow Agents GitHub 地址:

https://github.com/tensorflow/agents

相关论文:

https://arxiv.org/abs/1709.02878

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-09-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

库、教程、论文实现,这是一份超全的PyTorch资源列表(Github 2.2K星)

项目地址:https://github.com/bharathgs/Awesome-pytorch-list

1994
来自专栏机器之心

业界 | 百度成立数据可视化实验室,发布深度学习可视化平台 Visual DL

3406
来自专栏ArrayZoneYour的专栏

TensorFlow强化学习入门(2)——基于策略的Agents

在本教程系列的(1)中,我演示了如何构建一个agent来在多个选择中选取最有价值的一个。在本文中,我将讲解如何得到一个从现实世界中获取 观测值 ,并作出 长期收...

7256
来自专栏AI研习社

TensorFlow 全网最全学习资料汇总之TensorFlow的技术应用【4】

【AI研习社】关注AI前沿、开发技巧及技术教程等方面的内容。欢迎技术开发类文章、视频教程等内容投稿,邮件发送至:zhangxian@leiphone.com 随...

3197
来自专栏AI研习社

机器学习开发者应该收藏的 DIY 计算机视觉和深度学习项目

受到 Akshay Bahadur 所做伟大工作的鼓舞,在这篇文章中你将看到一些应用计算机视觉和深度学习的项目,包括具体实现和细节,你可以在自己的电脑上复现这些...

1713
来自专栏新智元

【谷歌新项目公开】无需学编程,用手机摄像头和浏览器即可机器学习

【新智元导读】谷歌最新的 Teachable Machine 项目,可以让用户无需编程就能利用摄像头采集数据、设计机器学习。作为 AI Experiment 的...

2685
来自专栏大数据挖掘DT机器学习

自己动手写推荐系统

在下面介绍的做推荐系统的流程中,我只是想给大家介绍个普通的推荐系统该怎么做,所以很多地方都有偷懒,还请大家见谅。而且由于我不是做的在线的推荐系统,而是属于隔天...

3828
来自专栏CreateAMind

OPENAI进化策略学习-强化学习的扩展替代-速度快!

本文由谷歌翻译 https://blog.openai.com/evolution-strategies/

1242
来自专栏新智元

比谷歌快46倍!GPU助力IBM Snap ML,40亿样本训练模型仅需91.5 秒

【新智元导读】近日,IBM 宣布他们使用一组由 Criteo Labs发布的广告数据集来训练逻辑回归分类器,在POWER9服务器和GPU上运行自身机器学习库Sn...

36610
来自专栏大数据挖掘DT机器学习

天池大赛—商场中精确定位用户所在店铺 作品分享

题目回顾 题目地址: 题目要求给定一条用户的消费记录,求该用户当前所在的店铺。 下面介绍题目数据和评测方式 1. 店铺和商场信息表(mall) ? 2. 用户...

4856

扫码关注云+社区