专栏首页专知Richard S. Sutton经典图书:《强化学习导论》第二版(附PDF下载)

Richard S. Sutton经典图书:《强化学习导论》第二版(附PDF下载)

【导读】Richard S. Sutton就职于iCORE大学计算机科学系,是强化学习领域的专家,其在强化学习领域的著作“Reinforcement Learning”一直是认为是强化学习方面的圣经,近期Sutton分享了该书的第二版“Reinforcement Learning: An Introduction”的最新版,经过了三年多的撰写和完善,相信这个版本也一定不负众望。

作者介绍

Richard S. Sutton是加拿大的一个计算机科学家,当前任职于iCORE大学计算机科学系。Sutton是强化学习领域巨擘,在temporal difference learning, policy gradient methods, the Dyna architecture等方面都有重大贡献。自2003年起,Sutton就出任iCORE大学计算机科学系的教授,在这里他领导了强化学习和人工智能实验室(RLAI)。

https://www.ualberta.ca/science/about-us/contact-us/faculty-directory/rich-sutton

Andrew Barto 是Massachusetts大学Amherst分校的教授, 已于2012年退休.

退休前, 他是Massachusetts大学Amherst分校自治学习实验室主任.

目前, 他是Massachusetts大学神经科学和行为项目的准会员, Neural Computation 副主编, Machine Learning Research杂志顾问, Adaptive Behavior的编辑.

Barto教授是美国科学促进会会员,IEEE Fellow, 以及神经科学学会会员.

他因强化学习领域的贡献而获得2004年IEEE神经网络协会先锋奖, IJCAI-17杰出研究奖.

他在期刊,书籍,会议和研讨会中发表论文一百多篇。 他与Richard Sutton共同编写了 "Reinforcement Learning: An Introduction," MIT Press 1998,迄今已收到超过25,000次引用。 本书的第二版即将发布。

履历:

Massachusetts大学的计算机科学系主任----- 2007-2011年

Massachusetts大学的计算机科学系教授----- 1991年

Massachusetts大学的计算机科学系副教授----- 1982年

Massachusetts大学的计算机科学系博士后----- 1977年

获Michigan大学数学专业学士学位----- 1970年

获Michigan大学计算机科学专业博士学位----- 1975年

http://www-all.cs.umass.edu/~barto/

书籍目录

第一章:简介

1.1 增强学习

1.2 实例

1.3 增强学习要素

1.4 限制和范围

1.5 一个扩展案例:Tic-Tac-Toe

1.6 摘要

1.7 增强学习发展历史

第二章: Muti-armed Bandits问题

2.1 K-armed Bandits问题

2.2 行动值方法

2.3 10-armed Testbed

2.4 增量实现

2.5 追踪一个非稳态解

2.6 优化初始值

2.7 置信上界行为选择

2.8 梯度Bandit算法

2.9 关联检索

2.10 小结

第三章:有限马尔可夫决策过程

3.1代理-环境接口

3.2目标和奖励

3.3返回和插值

3.4情节和连续任务的统一符号

3.5策略和价值函数

3.6最优策略与价值函数

3.7最优化与近似

3.8总结

第四章:动态编程

4.1 策略估计(预测)

4.2 策略提升

4.3 策略迭代

4.4 迭代值

4.5 异步动态编程

4.6 泛化的策略迭代

4.7 动态编程的效率

4.8 总结

第五章:蒙特卡洛方法

5.1 蒙特卡洛预测

5.2 蒙特卡洛对行为值的评估

5.3 蒙特卡洛控制

5.4 无开始探索的蒙特卡洛控制

5.5 通过重要抽样进行无策略(off-Policy)预测

5.6 增量编程

5.7 Off-Policy 蒙特卡洛控制

5.8 Discounting-aware 重要性采样

5.9 Per-decision 重要性采样

5.10 总结

第六章:时序差分学习(Temporal-Difference Learning)

6.1 时序差分预测

6.2 时序差分预测方法的优势

6.3 TD(o)的最佳性

6.4 Sarsa:在策略(On-Policy) TD 控制

6.5 Q-Learning:连策略TD 控制

6.6 期待的Sarsa

6.7 偏差最大化和双学习

6.8 游戏、afterstates 和其他具体案例

6.9 总结

第七章:n-step Bootstrapping

7.1 n-step TD 预测

7.2 n-step Sarsa

7.3 通过重要性抽样进行 n-step 离策略学习

7.4 Per-decision Off-policy Methods with Control Variates

7.5无重要性抽样下的离策略学习:n-step 树反向算法

7.6 一个统一的算法:n-step Q( σ)

7.7 总结

第八章:用表格方法进行计划和学习

8.1 模型和计划

8.2 Dyna:融合计划、行动和学习

8.3 模型错了会发生什么

8.4 优先扫除 (prioritized sweeping)

8.5 Expected vs. Sample Updates

8.6 Trajectory Sampling

8.7 Real-time Dynamic Programming

8.8 计划作为行动选择的一部分

8.9 启发式搜索

8.10 Rollout Algorithms

8.11 蒙特卡洛树搜索

8.12 本章总结

8.13 Summary of Part I: Dimensions

近似法解决方案

第九章:使用近似法的在政策预测

9.1 价值函数的近似

9.2 预测目标(MSVE)

9.3 随机梯度和半梯度的方法

9.4 线性方法

9.5 线性方法中的特征构建

9.5.1 多项式

9.5.2 傅里叶基础

9.5.3 课程代码

9.5.4 Tile Coding

9.5.5 径向基函数

9.6 手动选择步长参数

9.7 非线性函数近似:人工神经元网络

9.8 最小平方TD

9.9 基于内存的函数近似

9.10 Kernel-based函数近似

9.11 更深入地研究策略学习:兴趣和重点。

9.12 总结

第十章:用近似法控制on-policy 在策略

10.1 插入式的半梯度控制

10.2 n-step 半梯度Sarsa

10.3 平均回馈:连续任务中的新问题设定

10.4 “打折”的设置要考虑可用性

10.5 n-step 差分半梯度Sarsa

10.6 总结

第十一章:使用近似法的离策略方法

11.1 半梯度的方法

11.2 Barid 的反例

11.3 The deadly triad

11.4 线性几何值函数

11.5 在Bellman错误中梯度下降

11.6 The Bellman Error is Not Learnable

11.7 Gradient-TD Methods

11.8 Emphatic-TD Methods

11.9 减少方差

11.10 总结

第十二章:合格性追踪

12.1 λ-返回

12.2 TD(λ)

12.3 n-step Truncated λ-return Methods

12.4 Redoing Updates: The Online λ-return Algorithm

12.5 真实的在线TD(λ)

12.6 蒙特卡洛学习中的Dutch Traces

12.7 Sarsa(λ)

12.8 λ 和γ变量

12.9 带有控制变量的偏离策略的资格

12.10 Watkins’s Q(λ) to Tree-Backup(λ)

12.11 带有跟踪的稳定的非策略方法

12.12 实现中的若干问题

12.13 结论

第十三章:策略梯度方法

13.1 策略近似及其优势

13.2 策略梯度的原理

13.3 增强:蒙特卡洛策略梯度

13.4 使用基准增强

13.5 评估-决策方法(Actor-Critic)

13.6 连续问题中的策略梯度(平均回馈率)

13.7 连续行动中的策略参数化

13.8 总结

长远展望

第十四章:心理学

14.1 预测和控制

14.2 经典的调节

14.2.1 Blocking and Higher-order Conditioning

14.2.2 rescorla wagner 方法

14.2.3 TD模型

14.2.4 TD 模型模拟

14.3 有用条件

14.4 延迟的增强

14.5 认知图

14.6 习惯和目标导向的行为

14.7 总结

第十五章:神经科学

15.1 神经科学基础

15.2 回馈信号、价值、预测误差和增强信号

15.3 回馈预测误差假设

15.4 回馈预测误差假设的实验支持

15.6 TD 误差/ 多巴胺对应

15.7 神经评估-决策

15.8 评估-决策的学习规则

15.9 快乐主义的神经元

15.10 集体增强学习

15.11 大脑中基于模型的方法

15.12 上瘾

15.13 总结

第十六章:应用和案例分析

16.1 TD-Gammon

16.2 Samuel 的西洋棋玩家

16.3 Watson的 Daily-Double

16.4 优化记忆控制

16.5 人类水平的电子游戏

16.6 下围棋

16.6.1 AlphaGo

16.6.2 AlphaGo Zero

16.7 个性化网页服务

16.8 热气流滑翔

第十七章:前沿

17.1一般值函数和辅助任务

17.2通过选项进行时态抽象

17.3观察和状态

17.4设计奖励信号

17.5遗留问题

17.6强化学习与人工智能的未来

英文目录

书中对应的Python 代码(GitHub链接):

https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

请关注专知公众号

  • 后台回复“RLD” 就可以获取 书籍《Reinforcement Learning: An Introduction》最新版本下载链接

本文分享自微信公众号 - 专知(Quan_Zhuanzhi)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【深度学习】一文教你如何确定好的“学习率”

    【导读】近日,数据科学家Hafidz Zulkifli发布一篇文章,主要讲解了深度学习中的“学习率”,以及如何利用学习率来提高深度学习模型的性能并减少训练时间。...

    WZEARW
  • 春节充电系列:李宏毅2017机器学习课程学习笔记31之深度强化学习(deep reinforcement learning)

    【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的ensemble。这一节将主要针对讨论deep reinforcement learn...

    WZEARW
  • 春节充电系列:李宏毅2017机器学习课程学习笔记12之半监督学习(Semi-supervised Learning)

    【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的深度学习要求深的原因,这一节将主要针对讨论半监督学习。本文内容涉及机器学习中半监督学习...

    WZEARW
  • 艾瑞咨询:中国人工智能+金融行业研究报告

    点滴科技资讯
  • 中信证券:金融科技公司盈利模式和估值逻辑

    点滴科技资讯
  • 监督式和非监督式机器学习算法

    监督式学习指的是你拥有一个输入变量和一个输出变量,使用某种算法去学习从输入到输出的映射函数

    用户1359560
  • LeCun:智能的精华在于预测能力!“预测学习”了解一下!

    导读:在NIPS 2016大会上,著名研究者LeCun提出了预测学习(predictive learning)概念。在他的讲稿中,将机器学习比喻为“蛋糕”:

    华章科技
  • 机器学习(一)——机器学习概述

    机器学习(一)——机器学习概述 (原创内容,转载请注明来源,谢谢) 前言:近期开始学习机器学习,当前视频和书籍一起看,视频看的是吴恩达的机器学习系列课程,...

    用户1327360
  • 深入理解并发/并行,阻塞/非阻塞,同步/异步

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/articl...

    大黄大黄大黄
  • 【转】MySQL8.0 · 引擎分析 · InnoDB history list 无法降到0的原因

    摘自阿里云博客,原文地址:https://yq.aliyun.com/articles/400891?spm=a2c4e.11153959.blogcont34...

    二狗不要跑

扫码关注云+社区

领取腾讯云代金券