Python强化学习实战,Anaconda公司的高级数据科学家讲解

【导读】Christine Doig是Anaconda公司的高级数据科学家。没错Anaconda就是那个著名的Python科学计算与发行管理软件。Christine Doig从最基本的强化学习概念开始介绍强化学习Python实践经验,并以强化学习中的经典任务--Cartpole问题作为学习的入门例子,讲解从环境搭建、模型训练再到最后的效果评估的结果。

▌简介

Cartpole描述的问题可以认为是:在一辆小车上竖立一根杆子,然后给小车一个推或者拉的力,使得杆子尽量保持平衡不滑倒。

更详细的描述可参见openai官网上关于Cartpole问题的解释:https://gym.openai.com/envs/CartPole-v0

▌强化学习用到的python库

OpenAI

Gym: Toolkit for developing and comparing reinforcement learningalgorithms. MIT License, Last commit: November 2017

baselines: high-quality implementations of reinforcement learning algorithms,MIT License, Last commit: November 2017

TensorForce, A TensorFlow library for applied reinforcement learning, Apache 2,Last commit: November 2017

DeepRL, Highly modularized implementation of popular deep RL algorithms byPyTorch, Apache 2 License, Last commit: November 2017

RLlab, a framework for developing and evaluating reinforcement learningalgorithms, MIT License, Last commit: July 2017

AgentNet, Python library for deep reinforcement learning usingTheano+Lasagne, MIT License, Last commit: August 2017

RLPy, the Reinforcement Learning Library for Education and Research,3-Clause BSD License, Last commit: April 2016.

PyBrain, the Python Machine Learning Library, 3-Clause BSD License, Lastcommit: March 2016.

▌强化学习资源

Reinforcement Learning courseby David Silver

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

https://blog.acolyer.org/2017/11/17/mastering-the-game-of-go-without-humanknowledge/

https://keon.io/deep-q-learning/

https://rishav1.github.io/reinlearning/2017/01/05/simple-swarm-intelligenceoptimization-for-cartpole-balancing-problem.html

AlphaGo Zero's win, what itmeans, Fast Forward Labs: http:// blog.fastforwardlabs.com/2017/10/25/alphago-zero.html

更多可以查看专知以前推出的强化学习荟萃资料:

▌PPT内容

参考链接:

https://speakerdeck.com/chdoig/rl-pytexas-2017

本文来自企鹅号 - 专知媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏木子昭的博客

泰坦尼克乘客存活状况(决策树案例)

1912年4月15日凌晨2点20分,“永不沉没”的“泰坦尼克”走完了它短暂的航程,缓缓沉入大西洋这座安静冰冷的坟墓。 ? 欢迎你们说我幼稚荒诞,也欢迎你...

35312
来自专栏QQ音乐技术团队的专栏

蓝牙协议中的SBC编码

一、从信息的传输说起 ? 上图是一个典型的蓝牙耳机应用场景。手机上的音频信息经过编码以后通过蓝牙协议被蓝牙耳机接收,经过解码以后,蓝牙耳机成功获取手机上的音频...

39910
来自专栏WOLFRAM

Korteweg-de Vries 方程的可视化

1603
来自专栏量子位

Chrome暗藏的恐龙跳一跳,已经被AI轻松掌握了

作为一个Google Chrome浏览器的用户,当你看到上面那个页面时,不要沮丧。换个角度一想,墙内还能有更多的Play时间哦~

983
来自专栏州的先生

【我爱背单词】用Python提炼3000英语新闻高频词汇

1996
来自专栏生信技能树

12月份第2周(总第46周)探索TNBC新的亚型分类

发表于:Clin Cancer Res. 2015 Apr 文章题目是:Comprehensive Genomic Analysis Identifies No...

962
来自专栏CreateAMind

carla 体验效果 及代码

993
来自专栏机器之心

AlphaGo背后的力量:蒙特卡洛树搜索入门指南

选自int8 Blog 机器之心编译 我们都知道 DeepMind 的围棋程序 AlphaGo,以及它超越人类的强大能力,也经常会听到「蒙特卡洛树搜索」这个概念...

3225
来自专栏北京马哥教育

一步步用python制作游戏外挂

? 作者:晴明 来源: http://blog.csdn.net/qq_37267015/article/details/71330600 玩过电脑游戏的同...

6307
来自专栏CreateAMind

carla 体验效果 及代码

https://github.com/carla-simulator/imitation-learning 使用了 Direct Future Predic...

752

扫码关注云+社区