Richard S. Sutton经典图书:《强化学习导论》第二版(附PDF下载)

【导读】Richard S. Sutton就职于iCORE大学计算机科学系,是强化学习领域的专家,其在强化学习领域的著作“Reinforcement Learning”一直是认为是强化学习方面的圣经,近期Sutton分享了该书的第二版“Reinforcement Learning: An Introduction”的最新版,经过了三年多的撰写和完善,相信这个版本也一定不负众望。

作者介绍

Richard S. Sutton是加拿大的一个计算机科学家,当前任职于iCORE大学计算机科学系。Sutton是强化学习领域巨擘,在temporal difference learning, policy gradient methods, the Dyna architecture等方面都有重大贡献。自2003年起,Sutton就出任iCORE大学计算机科学系的教授,在这里他领导了强化学习和人工智能实验室(RLAI)。

https://www.ualberta.ca/science/about-us/contact-us/faculty-directory/rich-sutton

Andrew Barto 是Massachusetts大学Amherst分校的教授, 已于2012年退休.

退休前, 他是Massachusetts大学Amherst分校自治学习实验室主任.

目前, 他是Massachusetts大学神经科学和行为项目的准会员, Neural Computation 副主编, Machine Learning Research杂志顾问, Adaptive Behavior的编辑.

Barto教授是美国科学促进会会员,IEEE Fellow, 以及神经科学学会会员.

他因强化学习领域的贡献而获得2004年IEEE神经网络协会先锋奖, IJCAI-17杰出研究奖.

他在期刊,书籍,会议和研讨会中发表论文一百多篇。 他与Richard Sutton共同编写了 "Reinforcement Learning: An Introduction," MIT Press 1998,迄今已收到超过25,000次引用。 本书的第二版即将发布。

履历:

Massachusetts大学的计算机科学系主任----- 2007-2011年

Massachusetts大学的计算机科学系教授----- 1991年

Massachusetts大学的计算机科学系副教授----- 1982年

Massachusetts大学的计算机科学系博士后----- 1977年

获Michigan大学数学专业学士学位----- 1970年

获Michigan大学计算机科学专业博士学位----- 1975年

http://www-all.cs.umass.edu/~barto/

书籍目录

第一章:简介

1.1 增强学习

1.2 实例

1.3 增强学习要素

1.4 限制和范围

1.5 一个扩展案例:Tic-Tac-Toe

1.6 摘要

1.7 增强学习发展历史

第二章: Muti-armed Bandits问题

2.1 K-armed Bandits问题

2.2 行动值方法

2.3 10-armed Testbed

2.4 增量实现

2.5 追踪一个非稳态解

2.6 优化初始值

2.7 置信上界行为选择

2.8 梯度Bandit算法

2.9 关联检索

2.10 小结

第三章:有限马尔可夫决策过程

3.1代理-环境接口

3.2目标和奖励

3.3返回和插值

3.4情节和连续任务的统一符号

3.5策略和价值函数

3.6最优策略与价值函数

3.7最优化与近似

3.8总结

第四章:动态编程

4.1 策略估计(预测)

4.2 策略提升

4.3 策略迭代

4.4 迭代值

4.5 异步动态编程

4.6 泛化的策略迭代

4.7 动态编程的效率

4.8 总结

第五章:蒙特卡洛方法

5.1 蒙特卡洛预测

5.2 蒙特卡洛对行为值的评估

5.3 蒙特卡洛控制

5.4 无开始探索的蒙特卡洛控制

5.5 通过重要抽样进行无策略(off-Policy)预测

5.6 增量编程

5.7 Off-Policy 蒙特卡洛控制

5.8 Discounting-aware 重要性采样

5.9 Per-decision 重要性采样

5.10 总结

第六章:时序差分学习(Temporal-Difference Learning)

6.1 时序差分预测

6.2 时序差分预测方法的优势

6.3 TD(o)的最佳性

6.4 Sarsa:在策略(On-Policy) TD 控制

6.5 Q-Learning:连策略TD 控制

6.6 期待的Sarsa

6.7 偏差最大化和双学习

6.8 游戏、afterstates 和其他具体案例

6.9 总结

第七章:n-step Bootstrapping

7.1 n-step TD 预测

7.2 n-step Sarsa

7.3 通过重要性抽样进行 n-step 离策略学习

7.4 Per-decision Off-policy Methods with Control Variates

7.5无重要性抽样下的离策略学习:n-step 树反向算法

7.6 一个统一的算法:n-step Q( σ)

7.7 总结

第八章:用表格方法进行计划和学习

8.1 模型和计划

8.2 Dyna:融合计划、行动和学习

8.3 模型错了会发生什么

8.4 优先扫除 (prioritized sweeping)

8.5 Expected vs. Sample Updates

8.6 Trajectory Sampling

8.7 Real-time Dynamic Programming

8.8 计划作为行动选择的一部分

8.9 启发式搜索

8.10 Rollout Algorithms

8.11 蒙特卡洛树搜索

8.12 本章总结

8.13 Summary of Part I: Dimensions

近似法解决方案

第九章:使用近似法的在政策预测

9.1 价值函数的近似

9.2 预测目标(MSVE)

9.3 随机梯度和半梯度的方法

9.4 线性方法

9.5 线性方法中的特征构建

9.5.1 多项式

9.5.2 傅里叶基础

9.5.3 课程代码

9.5.4 Tile Coding

9.5.5 径向基函数

9.6 手动选择步长参数

9.7 非线性函数近似:人工神经元网络

9.8 最小平方TD

9.9 基于内存的函数近似

9.10 Kernel-based函数近似

9.11 更深入地研究策略学习:兴趣和重点。

9.12 总结

第十章:用近似法控制on-policy 在策略

10.1 插入式的半梯度控制

10.2 n-step 半梯度Sarsa

10.3 平均回馈:连续任务中的新问题设定

10.4 “打折”的设置要考虑可用性

10.5 n-step 差分半梯度Sarsa

10.6 总结

第十一章:使用近似法的离策略方法

11.1 半梯度的方法

11.2 Barid 的反例

11.3 The deadly triad

11.4 线性几何值函数

11.5 在Bellman错误中梯度下降

11.6 The Bellman Error is Not Learnable

11.7 Gradient-TD Methods

11.8 Emphatic-TD Methods

11.9 减少方差

11.10 总结

第十二章:合格性追踪

12.1 λ-返回

12.2 TD(λ)

12.3 n-step Truncated λ-return Methods

12.4 Redoing Updates: The Online λ-return Algorithm

12.5 真实的在线TD(λ)

12.6 蒙特卡洛学习中的Dutch Traces

12.7 Sarsa(λ)

12.8 λ 和γ变量

12.9 带有控制变量的偏离策略的资格

12.10 Watkins’s Q(λ) to Tree-Backup(λ)

12.11 带有跟踪的稳定的非策略方法

12.12 实现中的若干问题

12.13 结论

第十三章:策略梯度方法

13.1 策略近似及其优势

13.2 策略梯度的原理

13.3 增强:蒙特卡洛策略梯度

13.4 使用基准增强

13.5 评估-决策方法(Actor-Critic)

13.6 连续问题中的策略梯度(平均回馈率)

13.7 连续行动中的策略参数化

13.8 总结

长远展望

第十四章:心理学

14.1 预测和控制

14.2 经典的调节

14.2.1 Blocking and Higher-order Conditioning

14.2.2 rescorla wagner 方法

14.2.3 TD模型

14.2.4 TD 模型模拟

14.3 有用条件

14.4 延迟的增强

14.5 认知图

14.6 习惯和目标导向的行为

14.7 总结

第十五章:神经科学

15.1 神经科学基础

15.2 回馈信号、价值、预测误差和增强信号

15.3 回馈预测误差假设

15.4 回馈预测误差假设的实验支持

15.6 TD 误差/ 多巴胺对应

15.7 神经评估-决策

15.8 评估-决策的学习规则

15.9 快乐主义的神经元

15.10 集体增强学习

15.11 大脑中基于模型的方法

15.12 上瘾

15.13 总结

第十六章:应用和案例分析

16.1 TD-Gammon

16.2 Samuel 的西洋棋玩家

16.3 Watson的 Daily-Double

16.4 优化记忆控制

16.5 人类水平的电子游戏

16.6 下围棋

16.6.1 AlphaGo

16.6.2 AlphaGo Zero

16.7 个性化网页服务

16.8 热气流滑翔

第十七章:前沿

17.1一般值函数和辅助任务

17.2通过选项进行时态抽象

17.3观察和状态

17.4设计奖励信号

17.5遗留问题

17.6强化学习与人工智能的未来

英文目录

书中对应的Python 代码(GitHub链接):

https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

请关注专知公众号

  • 后台回复“RLD” 就可以获取 书籍《Reinforcement Learning: An Introduction》最新版本下载链接

本文分享自微信公众号 - 专知(Quan_Zhuanzhi)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

用数据讲述最好的故事:如何做出赏心悦目的数据可视化

原作者 Amy Lee Walton 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 当设计地图时,我会想:我想让观看者如何阅读地图...

247100
来自专栏崔庆才的专栏

重磅福利!腾讯 AI Lab 开源大规模高质量中文词向量数据,800 万中文词随你用!

今日,腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,为对...

27430
来自专栏企鹅号快讯

掌握机器学习数学基础之概率统计(一)

标题: 机器学习为什么要使用概率 概率学派和贝叶斯学派 何为随机变量和何又为概率分布? 条件概率,联合概率和全概率公式: 边缘概率 独立性和条件独立性 期望、方...

33460
来自专栏新智元

田渊栋:深度学习没有解决的理论问题(附 ICLR 论文 3 篇)

【新智元导读】Facebook 人工智能组研究员、围棋项目负责人田渊栋昨日在知乎专栏撰文,介绍投稿 ICLR2017 的三篇论文,其中两篇应用(包括获 Doom...

52870
来自专栏IT技术精选文摘

白话深度神经网络

近些年来,深度神经网络异常火爆,各种深度神经网络架构层出不穷。大有千树万树梨花开,各领风骚数小时的趋势!

14310
来自专栏ATYUN订阅号

给定卫星图像,通过机器学习即可创建地面图像

达芬奇曾创作的绘画展示了意大利某些地区的鸟瞰图,其细节水平在摄影和飞行机器发明之前是不可能实现的。实际上,许多评论家都想知道他如何想象这些细节。但现在研究人员正...

8730
来自专栏新智元

【1996~2016】盘点 20 年 AAAI 人工智能最佳论文

【新智元导读】新智元汇集计算机科学领域1996年到2016年人工智能领域最佳论文,附上题目及摘要的中文翻译,并对这些作品进行系统考察,从中可以看出人工智能这门学...

48590
来自专栏一名叫大蕉的程序员

大数据计数原理1+0=1这你都不会算(七)No.59

今天的干货,不是一般的干,噎死人那种干。没下面这些准备的话直接退出吧,回去度娘啊谷哥啊弄懂是什么东西再回来。 知识储备必须有这些: BitMap知识。概率论二...

21350
来自专栏数据科学与人工智能

【机器学习】有趣的机器学习:最简明入门指南

在听到人们谈论机器学习的时候,你是不是对它的涵义只有几个模糊的认识呢?你是不是已经厌倦了在和同事交谈时只能一直点头?让我们改变一下吧! 本指南的读者对象是所有对...

34880
来自专栏用户2442861的专栏

熵与生命 概率

https://yjango.gitbooks.io/superorganism/content/shang_yu_sheng_ming.html

33610

扫码关注云+社区

领取腾讯云代金券