重磅 | 经典教材 R. Sutton《增强学习导论》最新版(451PDF)

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。

【新智元导读】加拿大阿尔伯塔大学著名增强学习大师 Richard S. Sutton 教授的经典教材《增强学习导论》(Reinforcement Learning: An Introduction)近日准备出第二版,现书稿的草稿在其主页提供,新智元编译图书的目录部分,全书(英文版 draft)可在新智元公众号下载。本书系统性地介绍了增强学习,共451页,其中不乏许多新颖的应用案例分析。

昨天介绍了 DeepMind在实现通用人工智能上的最新尝试,DeepMind的科学家Hadsell认为,神经网络中智能体的连续学习和行动能力被认为是通往通用人工智能的重要一步。Sutton 的这本经典教材《增强学习导论》对连续学习多有涉及,推荐下载阅读。

全书目录

第一版引言

第二版引言

摘要

1. 增强学习的问题

1.1 增强学习

1.2 案例

1.3 增强学习要素

1.4 限制和范围

1.5 一个延伸案例:Tic-Tac-Toe

1.6 小结

1.7 增强学习的历史

1.8 参考文献

列表法

2. 多臂赌博机(Muti-arm Bandits)问题

2.1 K-臂赌博机问题

2.2 行动值方法

2.3 增量实现

2.4 追踪一个非稳态解

2.5 优化初始值

2.6 置信上界行动选择

2.7 梯度赌博机算法

2.8 关联检索

2.9 小结

3. 有限马尔科夫决策过程

3.1 代理(agent)环境交互

3.2 目标和回馈

3.3 返回

3.4 为插入或连续性任务统一符号

3.5 马尔科夫属性

3.6 马尔科夫决策过程

3.7 价值函数

3.8 优化价值函数

3.9 优化和近似

3.10 总结

4. 动态编程

4.1 策略估计

4.2 策略改进

4.3 策略迭代

4.4 迭代值

4.5 异步动态编程

4.6 泛化的策略迭代

4.7 动态编程的效果

4.8 总结

5. 蒙特卡洛方法

5.1 蒙特卡洛预测

5.2 蒙特卡洛对行动价值的评估

5.3 蒙特卡洛控制

5.4 不读取(Explore)开始条件下的蒙特卡洛控制

5.5 通过重要抽样进行无策略(off-Policy)预测

5.6 增量实现

5.7 Off-Policy 蒙特卡洛控制

5.8 专用于返回的重要抽样

5.9 总结

6. 时间差分(TD)学习

6.1 时间差分预测

6.2 时间差分预测方法的优势

6.3 TD(o)的最佳性

6.4 Sarsa:在策略(On-Policy) TD 控制

6.5 Q-Learning:连策略TD 控制

6.6 期待的Sarsa

6.7 偏差最大化和双学习

6.8 游戏、afterstates 和其他具体案例

6.9 总结

7. 多步骤 bootstrapping

7.1 n-step TD 预测

7.2 n-step Sarsa

7.3 通过重要性抽样进行 n-step 离策略学习

7.4 无重要性抽样下的离策略学习:n-step 树反向算法

7.5 一个统一的算法:n-step Q( σ)

7.6 总结

8. 用列表方法进行计划和学习

8.1 模型和计划

8.2 Dyna:融合计划、行动和学习

8.3 模型错了会发生什么

8.4 优先扫除 (prioritized sweeping)

8.5 计划作为行动选择的一部分

8.6 启发式搜索

8.7 蒙特卡洛树搜索

8.8 总结

近似法解决方案

9. 使用近似法的在政策预测

9.1 价值函数的近似

9.2 预测目标(MSVE)

9.3 随机梯度和半梯度的方法

9.4 线性方法

9.5 线性方法中的特征构建

9.5.1 多项式

9.5.2 傅里叶基础

9.5.3 Coarse coding

9.5.4 Tile Coding

9.5.5 径向基函数

9.6 非线性函数近似:人工神经元网络

9.7 最小平方TD

9.8 总结

10. 用近似法控制on-policy 在策略

10.1 插入式的半梯度控制

10.2 n-step 半梯度Sarsa

10.3 平均回馈:连续任务中的新问题设定

10.4 “打折”的设置要考虑可用性

10.5 n-step 差分半梯度Sarsa

10.6 总结

11. 使用近似法的离策略方法

11.1 半梯度的方法

11.2 Barid 的反例

11.3 The deadly triad

12. 合格性追踪

12.1 λ-返回

12.2 TD(λ)

12.3 一个在线前瞻

12.4 真实的在线TD(λ)

12.5 蒙特卡洛学习中的Dutch Traces

13. 策略梯度方法

13.1 策略近似及其优势

13.2 策略梯度的原理

13.3 增强:蒙特卡洛策略梯度

13.4 使用基准增强

13.5 评估-决策方法(Actor-Critic)

13.6 连续问题中的策略梯度(平均回馈率)

13.7 连续行动中的策略参数化

更深层的展望

14.心理学

14.1 术语

14.2 预测和控制

14.3 经典的调节

14.3.1 rescorla wagner 方法

14.3.2 TD模型

14.3.3 TD 模型模拟

14.4 有用条件

14.5 延迟的增强

14.6 认知图

14.7 习惯和目标导向的行为

14.8 总结

14.9 结论

14.10 参考文献

15. 神经科学

15.1 神经科学基础

15.2 回馈信号、价值、预测误差和增强信号

15.3 回馈预测误差假设

15.4 回馈预测误差假设的实验支持

15.6 TD 误差/ 多巴胺对应

15.7 神经评估-决策

15.8 评估-决策的学习规则

15.9 快乐主义的神经元

15.10 集体增强学习

15.11 大脑中基于模型的方法

15.12 上瘾

15.13 总结

15.14 结论

15.15 参考文献

16. 应用和案例分析

16.1 TD-Gammon

16.2 Samuel 的西洋棋玩家

16.3 Acrobot

16.4 Watson的 Daily-Double(双保险,指在赛马中用一笔赌注买两匹马)。

16.5 优化记忆控制

16.6 人类水平的电子游戏

16.7 下围棋

16.8 热气流滑翔

16.9 个性的网页服务

17.前沿

17.1 综合的观点

参考文献

书中部分插图

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-09-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据魔术师

干货 | 用模拟退火(SA, Simulated Annealing)算法解决旅行商问题

前 排 最近这个春节又快到了,虽然说什么有钱没钱回家过年。但也有部分小伙伴早已经备好了盘缠和干粮,准备在这个难得的假期来一场说走就走的旅行了。毕竟世界这么大我想...

99680
来自专栏IT派

普通程序员,几个月如何成功转型AI?

IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 动辄50万的毕业生年薪,动辄100万起步价的海归AI高级人才,普通员到底应不应该转型AI工程...

51660
来自专栏量子位

如何给非专业人士讲解什么是深度学习?

本文转载自王咏刚微信:半轻人,点击左下角阅读原文,可直达原文链接。 去年开始,工作中需要做许多有关 AI 科普的事情。很长时间里一直在想,该如何给一个没有 CS...

35780
来自专栏计算机视觉战队

如何给非专业人士讲解什么是深度学习?

去年开始,工作中需要做许多有关 AI 科普的事情。很长时间里一直在想,该如何给一个没有 CS 背景的人讲解什么是深度学习,以便让一个非技术的投资人、企业管理者、...

13710
来自专栏数据魔术师

机器学习|刘博士谈机器学习--机器的“是非观”

我开始写这篇公众号的时候已经是凌晨,希望我的头脑还能在写作过程中保持足够的清醒。在前两篇清谈型的文章后(没看过的还是要看一下),今天我终于要进入到机器学习的正题...

13540
来自专栏PPV课数据科学社区

如何给非专业人士讲解什么是深度学习?

去年开始,工作中需要做许多有关 AI 科普的事情。很长时间里一直在想,该如何给一个没有 CS 背景的人讲解什么是深度学习,以便让一个非技术的投资人、企业管理者、...

34260
来自专栏量子位

20年前的吴恩达,藏在一个数据集里

今天这张照片火了。连正主吴恩达都在推特上转发了这张黑白照片。吴恩达回忆说,这张照片拍摄于大概20年前~

9140
来自专栏AI科技大本营的专栏

这三个普通程序员,几个月就成功转型AI,他们的经验是...

动辄50万的毕业生年薪,动辄100万起步价的海归AI高级人才,普通员到底应不应该转型AI工程师,普通程序员到底应该如何转型AI工程师? 以下,AI科技大本营精选...

45960
来自专栏机器之心

从Yoav Goldberg与Yann LeCun争论,看当今的深度学习、NLP与arXiv风气

选自Medium、Facebook 机器之心编译 作者:Yoav Goldberg、Yann LeCun 参与:黄小天、吴攀、晏奇 最近,来自以色列 Bar ...

29770
来自专栏数据科学与人工智能

【陆勤笔记】《深入浅出统计学》1信息图形化:第一印象

在为手头数据无法给出事情真相和发愁吗?作为一名数据工作者,总会有这种问题浮在心头。手头的数据,大部分时候是原始数据集,准确地说,应该是基于目的驱动所采集过来的原...

24870

扫码关注云+社区

领取腾讯云代金券