强化学习教程4: Model-Free Prediction

Video-lectures available https://www.youtube.com/watch?v=2pWv7GOvuf0

Lecture 1: Introduction to Reinforcement Learning

Lecture 2: Markov Decision Processes

Lecture 3: Planning by Dynamic Programming

Lecture 4: Model-Free Prediction

Lecture 5: Model-Free Control

Lecture 6: Value Function Approximation

Lecture 7: Policy Gradient Methods

Lecture 8: Integrating Learning and Planning

Lecture 9: Exploration and Exploitation

Lecture 10: Case Study: RL in Classic Games



原文发布于微信公众号 - CreateAMind(createamind)

原文发表时间:2016-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ml

HDUOJ--1874 畅通工程续

畅通工程续 Time Limit: 3000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Jav...

345110
来自专栏机器人网

别让接线这件小事,拉开你与工程师的差距

导线与导线的连接、线头与接线桩的连接,事情小,责任大。本文图文并茂,让你清清楚楚看懂! 导线与导线的连接 导线的连接情况有:单股铜芯导线的直线连接、T字形连接;...

34770
来自专栏专知

【代码资源】GAN | 七份最热GAN文章及代码分享(Github 1000+Stars)

【导读】专知团队整理了七份当前最热的GAN相关文章和代码,每篇文章代码均在Github上开源,Stars数量超1000+。

16260
来自专栏张善友的专栏

Prism Training Kit 4.0

上周刚刚发布的支持Windows Phone 7的Prism 4.0最终版,Damian, Diego, Guido 和Ezequiel更新了Prism Tra...

193100
来自专栏CreateAMind

paper:Multi-Level Discovery of Deep Options

10210
来自专栏小特工作室

基于iTextSharp的PDF文档操作

  公司是跨境电商,需要和各种物流打交道,需要把东西交给物流,让他们发到世界各地。其中需要物流公司提供一个运单号,来追踪货物到达哪里?!   最近在和DHL物流...

290100
来自专栏IT派

开源|人脸检测的C / C ++源代

人脸检测的C/C++源代码,曾发表于 OPENCV 的 MAILING LIST,主要是对OPENCV 3.1 版本发布的代码做了一些速度上的优化,并且解决了内...

42550
来自专栏生信技能树

使用ESTIMATE来对转录组表达数据根据stromal和immune细胞比例估算肿瘤纯度

ESTIMATE (Estimation of STromal and Immune cells in MAlignant Tumor tissues usin...

57520
来自专栏CreateAMind

强化学习教程3 规划中的动态编程

Video-lectures available https://www.youtube.com/watch?v=2pWv7GOvuf0

12240
来自专栏小樱的经验随笔

HDU 1874 畅通工程续【Floyd算法实现】

畅通工程续 Time Limit: 3000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Jav...

291100

扫码关注云+社区

领取腾讯云代金券