机器学习之——强化学习中的有模型学习

强化学习可以视为一个四元组,分别表示状态、动作、状态转移和奖赏。有模型学习是指这个四元组均为已知的情况,此时,我们可以在机器上模拟出与环境相同或近似的状况,显然,这是一种最简单的情形。

有模型学习示例

学习算法的框架

我们的目标是得到一个最优的策略π。为了得到最优策略,我们首先要能够判断哪个策略是更优的,也就是能够对策略进行评估。有了评估策略的方法后,就可以据此改进一个策略。因此,整体框架就是:评估策略 -> 改进策略 -> 再评估 -> 再改进。

策略评估

一个策略的好坏是通过其获得的奖赏衡量的,而强化学习里面的决策是一个序列,因此所得奖赏往往也是一个序列,所以常使用累积奖赏作为策略好坏的衡量标准。最常见的累积方法就是γ折扣累积奖赏,其计算方法为

状态值函数的定义

上式也称为状态值函数。其含义就是衡量在状态x下,以γ折扣累积奖赏衡量的策略π的好坏。

不仅如此,还可以类似的定义一个状态-动作值函数Q:

状态-动作值函数

其含义为:衡量在状态x下,执行动作a以后,以γ折扣累积奖赏衡量的策略π的好坏。

那什么时候策略达到最优呢?就是满足下面式子的时候

最优策略满足的等式

也就是说,对所有状态的V(x)求和,求和后最大的那个策略,就是最优策略。

那么怎么找最优策略呢?

有两种方法:策略迭代和值迭代。

策略迭代的思路是:

1、随机初始化策略π

2、根据策略π计算它的状态值函数V(x)

3、根据状态值函数V(x)计算状态-动作值函数Q(x,a),注意,Q比V多考虑了一步,即在x时,执行a动作以后的累积奖赏,而不是考虑当前状态x的累积奖赏

4、根据状态-动作值函数Q(x,a)生成新的策略π'

5、π = π',回到第2步继续

这种方法的有效性是得到数学证明的,但可以直观的理解为:Q比V多考虑了一步,所以根据Q生成的策略π'要比之前的策略π更好,因此V和π都可以一直进化。

基于策略和基于值的方法

而值迭代则基于V和Q的递推方程,不断迭代直到收敛。特别的,对Q函数进行迭代的方法也称为Q学习。这部分公式较多,此处就不展开了。

本文来自企鹅号 - 人工智能技术媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SIGAI学习与实践平台

神经网络的激活函数总结

激活函数在神经网络中具有重要的地位。在SIGAI之前的公众号文章“理解神经网络的激活函数”中,我们回答了3个关键的问题:

1160
来自专栏机器学习算法与Python学习

20条「不成熟」的小建议,如何构建深度神经网络?

本文介绍了构建深度神经网络的一些基本技巧,从通用技巧、神经网络调试和案例研究三方面展开。

552
来自专栏数说工作室

logistic回归:从生产到使用【下:生产篇】

logistic回归:从生产到使用【下:生产篇】 上篇介绍了logistic模型的原理,如果你只是想使用它,而不需要知道它的生产过程,即拟合方法及编程实现,那么...

2975
来自专栏智能算法

卷积神经网络工作原理直观解释

其实我们在做线性回归也好,分类(逻辑斯蒂回归)也好,本质上来讲,就是把数据进行映射,要么映射到一个多个离散的标签上,或者是连续的空间里面,一般简单的数据而言,我...

3059
来自专栏IT派

笔记 | 吴恩达Coursera Deep Learning学习笔记

作者:Lisa Song 微软总部云智能高级数据科学家,现居西雅图。具有多年机器学习和深度学习的应用经验,熟悉各种业务场景下机器学习和人工智能产品的需求分析...

3578
来自专栏专知

【干货面经】常见面试之机器学习算法思想简单梳理

【导读】这是早期一篇关于机器学习面试方面的干货总结。到今天也值得一看。请大家看阅。 作者:tornadomeet 出处:http://www.cnblogs....

6998
来自专栏PPV课数据科学社区

【V课堂】R语言十八讲(十四)—几大检验

在统计分析中,我们会听到很多检验,有T检验,卡方检验,秩和检验,F检验,费舍尔检验等等,这么多检验,光听就要晕了,还怎么用啊?哪种检验什么时候能用什么时候不能用...

2777
来自专栏WD学习记录

机器学习深度学习 笔试面试题目整理(2)

(1) 思想    改变全连接为局部连接,这是由于图片的特殊性造成的(图像的一部分的统计特性与其他部分是一样的),通过局部连接和参数共享大范围的减少参数值。可...

1132
来自专栏AI科技大本营的专栏

笔记 | 吴恩达Coursera Deep Learning学习笔记

向AI转型的程序员都关注了这个号☝☝☝ ? 作者:Lisa Song 微软总部云智能高级数据科学家,现居西雅图。具有多年机器学习和深度学习的应用经验,熟悉各种业...

38915
来自专栏AI科技评论

开发 | 深度学习中的“深度”究竟怎么理解?

AI科技评论按:本文原作者 YJango,本文原载于其知乎专栏——超智能体。AI科技评论已获得原作者授权。 介绍 为了研究神经网络,我们必须要对什么网络是什么有...

2867

扫码关注云+社区