机器学习之——强化学习中的有模型学习

强化学习可以视为一个四元组,分别表示状态、动作、状态转移和奖赏。有模型学习是指这个四元组均为已知的情况,此时,我们可以在机器上模拟出与环境相同或近似的状况,显然,这是一种最简单的情形。

有模型学习示例

学习算法的框架

我们的目标是得到一个最优的策略π。为了得到最优策略,我们首先要能够判断哪个策略是更优的,也就是能够对策略进行评估。有了评估策略的方法后,就可以据此改进一个策略。因此,整体框架就是:评估策略 -> 改进策略 -> 再评估 -> 再改进。

策略评估

一个策略的好坏是通过其获得的奖赏衡量的,而强化学习里面的决策是一个序列,因此所得奖赏往往也是一个序列,所以常使用累积奖赏作为策略好坏的衡量标准。最常见的累积方法就是γ折扣累积奖赏,其计算方法为

状态值函数的定义

上式也称为状态值函数。其含义就是衡量在状态x下,以γ折扣累积奖赏衡量的策略π的好坏。

不仅如此,还可以类似的定义一个状态-动作值函数Q:

状态-动作值函数

其含义为:衡量在状态x下,执行动作a以后,以γ折扣累积奖赏衡量的策略π的好坏。

那什么时候策略达到最优呢?就是满足下面式子的时候

最优策略满足的等式

也就是说,对所有状态的V(x)求和,求和后最大的那个策略,就是最优策略。

那么怎么找最优策略呢?

有两种方法:策略迭代和值迭代。

策略迭代的思路是:

1、随机初始化策略π

2、根据策略π计算它的状态值函数V(x)

3、根据状态值函数V(x)计算状态-动作值函数Q(x,a),注意,Q比V多考虑了一步,即在x时,执行a动作以后的累积奖赏,而不是考虑当前状态x的累积奖赏

4、根据状态-动作值函数Q(x,a)生成新的策略π'

5、π = π',回到第2步继续

这种方法的有效性是得到数学证明的,但可以直观的理解为:Q比V多考虑了一步,所以根据Q生成的策略π'要比之前的策略π更好,因此V和π都可以一直进化。

基于策略和基于值的方法

而值迭代则基于V和Q的递推方程,不断迭代直到收敛。特别的,对Q函数进行迭代的方法也称为Q学习。这部分公式较多,此处就不展开了。

本文来自企鹅号 - 人工智能技术媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏文武兼修ing——机器学习与IC设计

YOLOv2与YOLOv3学习笔记基本思路模型训练YOLOv3

3K5
来自专栏人工智能头条

CMU最新视觉特征自监督学习模型——TextTopicNet

作者 | Yash Patel,Lluis Gomez,Raul Gomez,Marcal Rusinol,Dimosthenis Karatzas, C.V....

1451
来自专栏机器学习算法与Python学习

初步了解支持向量机(SVM)-1

从今天开始整理一些关于支持向量机-Support Vector Machine 的相关知识,大约发6-8篇的博客,敬请关注~欢迎推荐~ 好了,由...

41811
来自专栏AI研习社

直观理解深度学习卷积部分

近几年随着功能强大的深度学习框架的出现,在深度学习模型中搭建卷积神经网络变得十分容易,甚至只需要一行代码就可以完成。

1102
来自专栏机器之心

学界 | 田渊栋等人论文:何时卷积滤波器容易学习?

选自arXiv 机器之心编译 参与:黄小天、刘晓坤 近日,田渊栋等人在 arXiv 上发表了一篇题为《When is a Convolutional Filte...

36214
来自专栏新智元

【干货】随机森林的Python实现

【新智元导读】在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林几乎是任何预测类问题(甚至非线性问题)...

3525
来自专栏机器学习原理

深度学习(5)——RBF算法简介

1563
来自专栏机器学习算法与Python学习

直观理解深度学习的卷积操作,超赞!

近几年随着功能强大的深度学习框架的出现,在深度学习模型中搭建卷积神经网络变得十分容易,甚至只需要一行代码就可以完成。

1511
来自专栏云时之间

深度学习与TensorFlow:FCN论文学习笔记

1325
来自专栏专知

【深度前沿】深度森林最新进展,南京大学周志华教授MLA2017解读,最新实验结果挑战深度学习

【导读】北京时间 11月5 日到11月6日,一年一度的“机器学习及其应用”(MLA)系列研讨会在北京交通大学开幕,西瓜书《机器学习》作者、南京大学机器学习与数据...

9795

扫码关注云+社区