Python强化学习实战,Anaconda公司的高级数据科学家讲解

【导读】Christine Doig是Anaconda公司的高级数据科学家。没错Anaconda就是那个著名的Python科学计算与发行管理软件。Christine Doig从最基本的强化学习概念开始介绍强化学习Python实践经验,并以强化学习中的经典任务--Cartpole问题作为学习的入门例子,讲解从环境搭建、模型训练再到最后的效果评估的结果。

▌简介

Cartpole描述的问题可以认为是:在一辆小车上竖立一根杆子,然后给小车一个推或者拉的力,使得杆子尽量保持平衡不滑倒。

更详细的描述可参见openai官网上关于Cartpole问题的解释:https://gym.openai.com/envs/CartPole-v0

▌强化学习用到的python库

OpenAI

Gym: Toolkit for developing and comparing reinforcement learningalgorithms. MIT License, Last commit: November 2017

baselines: high-quality implementations of reinforcement learning algorithms,MIT License, Last commit: November 2017

TensorForce, A TensorFlow library for applied reinforcement learning, Apache 2,Last commit: November 2017

DeepRL, Highly modularized implementation of popular deep RL algorithms byPyTorch, Apache 2 License, Last commit: November 2017

RLlab, a framework for developing and evaluating reinforcement learningalgorithms, MIT License, Last commit: July 2017

AgentNet, Python library for deep reinforcement learning usingTheano+Lasagne, MIT License, Last commit: August 2017

RLPy, the Reinforcement Learning Library for Education and Research,3-Clause BSD License, Last commit: April 2016.

PyBrain, the Python Machine Learning Library, 3-Clause BSD License, Lastcommit: March 2016.

▌强化学习资源

Reinforcement Learning courseby David Silver

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

https://blog.acolyer.org/2017/11/17/mastering-the-game-of-go-without-humanknowledge/

https://keon.io/deep-q-learning/

https://rishav1.github.io/reinlearning/2017/01/05/simple-swarm-intelligenceoptimization-for-cartpole-balancing-problem.html

AlphaGo Zero's win, what itmeans, Fast Forward Labs: http:// blog.fastforwardlabs.com/2017/10/25/alphago-zero.html

更多可以查看专知以前推出的强化学习荟萃资料:

▌PPT内容

参考链接:

https://speakerdeck.com/chdoig/rl-pytexas-2017

本文来自企鹅号 - 专知媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

Github 项目推荐 | 用 Python 实现的机器人算法示例集合 —— PythonRobotics

PythonRobotics 是用 Python 实现的机器人算法案例集合,该库包括了机器人设计中常用的定位算法、测绘算法、路径规划算法、SLAM、路径跟踪算法...

5428
来自专栏Albert陈凯

算法与数据结构algorithm

算法与数据结构 《Data structures》 介绍:高级数据结构大全,基本算法:二叉树等 《基于用户投票的排名算法(一):Delicious和Hacker...

2805
来自专栏大数据文摘

12月的音乐可视化笔记:我从TOP2000歌曲中,分析了这几年流行音乐的变化趋势

1382
来自专栏PPV课数据科学社区

【学习】用R语言进行数据可视化的综合指南

让我们快速浏览一下这张图表: ? 这张可视化数据图(最初用Tableau软件创建 )是如何利用数据可视化来帮助决策者的一个很好的例子。想象一下,如果这些信息通...

2664
来自专栏专知

【Leetcode 198】关关的刷题日记69 – Leetcode 198 House Robber

关关的刷题日记69 – Leetcode 198 House Robber 题目 You are a professional robber planning ...

26911
来自专栏专知

【资源】Python强化学习实战,Anaconda公司的高级数据科学家讲解(附相关Python开源库)

【导读】Christine Doig是Anaconda公司的高级数据科学家。没错Anaconda就是那个著名的Python科学计算与发行管理软件。Christi...

2904
来自专栏owent

2011 Google Code Jam 小记

好久没写这种类型的代码,感觉真是退步了很多。 这是我第一次参加Google Code Jam,以前有过报名可是没有做过。 我发现Google Code Ja...

1901
来自专栏数据结构与算法

BZOJ1191: [HNOI2006]超级英雄Hero(二分图匹配)

现在电视台有一种节目叫做超级英雄,大概的流程就是每位选手到台上回答主持人的几个问题,然后根据回答问题的

822
来自专栏HansBug's Lab

1638: [Usaco2007 Mar]Cow Traffic 奶牛交通

1638: [Usaco2007 Mar]Cow Traffic 奶牛交通 Time Limit: 5 Sec  Memory Limit: 64 MB Sub...

2667
来自专栏Python攻城狮

Python数据科学(八)- 资料探索与资料视觉化1.叙述性统计与推论性统计2.进行读取相关数据

丘老师是使用pandas_datareader.DataReader来读取的雅虎提供的阿里巴巴股票数据,现在雅虎已经被弃用。这里我使用Tushare来读取金融数...

1002

扫码关注云+社区