强化学习读书笔记 - 08 - 规划式方法和学习式方法

强化学习读书笔记 - 08 - 规划式方法和学习式方法

学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

需要了解强化学习的数学符号,先看看这里:

什么是模型(model)

环境的模型,本体可以通过模型来预测行为的反应。 对于随机的环境,有两种不同的模型:

  • distribution model - 分布式模型,返回行为的各种可能和其概率。
  • sample model - 样本式模型,根据概率,返回行为的一种可能。

样本式模型的数学表达 (R, S') = model(S, A)

规划型方法和学习型方法(Planning and Learning with Tabular Methods)

  • planning methods - 规划型方法。通过模型来获得价值信息(行动状态转换,奖赏等)。 比如:动态规划(dynamic programming)和启发式查询(heuristic search)。 模型planning相当于模型模拟(model simulation)。
  • learning methods - 学习型方法。通过体验(experience)来获得价值信息。 比如:蒙特卡洛方法(Mento Carlo method)和时序差分方法(temporal different method)。

蒙特卡洛树方法是一个规划型方法,需要一个样本式模型。而蒙特卡洛方法是一个学习型方法。 这并不矛盾,只是意味着学习型方法的体验是可以用模型来执行,而获得一个模拟的经验(simulated experience)。

  • 规划型方法和学习型方法的相似性 规划型方法和学习型方法都是通过计算策略价值来优化策略。因此,可以融合到一起。 见书中例子:Random-sample on-step tabular Q-planning.

规划型方法

规划就是通过模型来学习 - 优化策略,有两种:

  • state-place planning - 状态空间规划 这也是本书中所讲的。
  • plan-place planning - 规划空间规划 本书不讲。

Dyna - 结合模型学习和直接强化学习

  • model learning - 模型学习,通过体验来优化模型的过程。
  • directly reinforcement learning - 直接强化学习,通过体验来优化策略的过程。

这里的思想是:通过体验来直接优化策略和优化模型(再优化策略)。见图:

Tabular Dyna-Q

理解 上面的算法,如果n=0,就是Q-learning算法。Dyna-Q的算法的优势在于性能上的提高。 我想主要原因是通过建立模型,减少了操作(c),模型学习到了Model(S, A) \gets R, S'

优化的交换(Prioritized Sweeping)

下面的算法,提供了一种性能的优化,只评估那些误差大于一定值\(\theta\)的策略价值。

蒙特卡洛树搜索

我有另外一个博文介绍了这个算法。 蒙特卡洛树搜索算法(UCT): 一个程序猿进化的故事

参照

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法原理与实践

SimRank协同过滤推荐算法

    在协同过滤推荐算法总结中,我们讲到了用图模型做协同过滤的方法,包括SimRank系列算法和马尔科夫链系列算法。现在我们就对SimRank算法在推荐系统的...

38010
来自专栏机器学习算法与Python学习

干货 | 条件随机场详解之模型篇

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 条件随机场部分分为两篇讲解,今天这一...

29730
来自专栏月色的自留地

从锅炉工到AI专家(5)

21140
来自专栏人工智能LeadAI

学习资料参考:从深度学习到自然语言处理

注意:本文已经更新,新版结合深度学习简介和发展历程,给出了更详尽的学习资料参考。新版链接:深度学习简介与学习资料参考(http://peteryuan.net/...

38680
来自专栏人工智能头条

深度学习在情感分析中的应用

36530
来自专栏量子位

主流的深度学习模型有哪些?

作者:阿萨姆 | 普华永道 数据科学家 量子位 已获授权编辑发布 转载请联系原作者 深度学习大热以后各种模型层出不穷,很多朋友都在问到底什么是DNN、CNN和R...

39040
来自专栏AI科技评论

微软IJCAI演讲PPT Part II:深度学习在统计机器翻译和对话上的应用

前天我们翻译了微软关于NLP(自然语言处理)的PPT的概览部分,今天我们为大家带来了这份PPT的第二部分:同上次一样,我们将翻译内容放在图里的同时也写在了下面,...

35960
来自专栏机器之心

教程 | 如何为单变量模型选择最佳的回归函数

31790
来自专栏AI科技评论

深度学习鼻祖Geoffrey Hinton带你入门机器学习(36页干货PPT)

雷锋网注:Geoffrey Everest Hinton(杰弗里·埃弗里斯特·辛顿 )是一位英国出生的计算机学家和心理学家,以其在神经网络方面的贡献闻名。辛顿是...

1K40
来自专栏人工智能LeadAI

使用CNN+ Auto-Encoder 实现无监督Sentence Embedding (代码基于Tensorflow)

1前言 这篇文章会利用到上一篇: 基于Spark /Tensorflow使用CNN处理NLP的尝试的数据预处理部分,也就是如何将任意一段长度的话表征为一个2维数...

41340

扫码关注云+社区

领取腾讯云代金券