机器学习之——强化学习中的有模型学习

强化学习可以视为一个四元组,分别表示状态、动作、状态转移和奖赏。有模型学习是指这个四元组均为已知的情况,此时,我们可以在机器上模拟出与环境相同或近似的状况,显然,这是一种最简单的情形。

有模型学习示例

学习算法的框架

我们的目标是得到一个最优的策略π。为了得到最优策略,我们首先要能够判断哪个策略是更优的,也就是能够对策略进行评估。有了评估策略的方法后,就可以据此改进一个策略。因此,整体框架就是:评估策略 -> 改进策略 -> 再评估 -> 再改进。

策略评估

一个策略的好坏是通过其获得的奖赏衡量的,而强化学习里面的决策是一个序列,因此所得奖赏往往也是一个序列,所以常使用累积奖赏作为策略好坏的衡量标准。最常见的累积方法就是γ折扣累积奖赏,其计算方法为

状态值函数的定义

上式也称为状态值函数。其含义就是衡量在状态x下,以γ折扣累积奖赏衡量的策略π的好坏。

不仅如此,还可以类似的定义一个状态-动作值函数Q:

状态-动作值函数

其含义为:衡量在状态x下,执行动作a以后,以γ折扣累积奖赏衡量的策略π的好坏。

那什么时候策略达到最优呢?就是满足下面式子的时候

最优策略满足的等式

也就是说,对所有状态的V(x)求和,求和后最大的那个策略,就是最优策略。

那么怎么找最优策略呢?

有两种方法:策略迭代和值迭代。

策略迭代的思路是:

1、随机初始化策略π

2、根据策略π计算它的状态值函数V(x)

3、根据状态值函数V(x)计算状态-动作值函数Q(x,a),注意,Q比V多考虑了一步,即在x时,执行a动作以后的累积奖赏,而不是考虑当前状态x的累积奖赏

4、根据状态-动作值函数Q(x,a)生成新的策略π'

5、π = π',回到第2步继续

这种方法的有效性是得到数学证明的,但可以直观的理解为:Q比V多考虑了一步,所以根据Q生成的策略π'要比之前的策略π更好,因此V和π都可以一直进化。

基于策略和基于值的方法

而值迭代则基于V和Q的递推方程,不断迭代直到收敛。特别的,对Q函数进行迭代的方法也称为Q学习。这部分公式较多,此处就不展开了。

本文来自企鹅号 - 人工智能技术媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏marsggbo

论文笔记系列-DARTS: Differentiable Architecture Search

我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型...

583
来自专栏人工智能LeadAI

译文 | 与TensorFlow的第一次接触 第四章:单层神经网络

在前言中,已经提到经常使用深度学习的领域就是模式识别。编程初学者都是从打印“Hello World”开始,深度学习中我们则是从识别手写数字开始。 本章中,我会讲...

37111
来自专栏杂七杂八

信息增益matlab实现

一般地,一个决策树包含一个根节点,若干个内部节点和若干个叶节点,叶结点对应决策结果,其他每个节点对应于一个属性测试,每个结点包含的样本集合根据属性测试的结果被划...

3018
来自专栏企鹅号快讯

神经网络模型实现手写字分类求解思路

《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来...

1876
来自专栏有趣的Python

1- 深度学习之神经网络核心原理与算法-前馈神经网络

前馈神经网络 Feedforward Neural Network 网络结构(一般分两种) Back Propagation Networks - 反向传播网络...

62511
来自专栏大数据文摘

斯坦福CS231N深度学习与计算机视觉第五弹:反向传播与它的直观理解

1575
来自专栏机器学习原理

机器学习(6)——决策树前言:

前言: 通过第前面的学习介绍了机器学习回归模型创建的流程,并且知道了机器学习要做的事情是找到目标函数,优化它,通过每次迭代都使目标函数值最小,最优解就是目标函数...

38010
来自专栏人工智能LeadAI

前馈神经网络——深度学习之神经网络核心原理与算法

因上几次读者反映,公式代码有乱码和不规整的问题,小编有改善哟,这篇文章开始亲们会看到效果的哟~

1154
来自专栏机器学习从入门到成神

交叉熵代价函数定义及其求导推导(读书笔记)

神经元的输出就是 a = σ(z),其中z=\sum w_{j}i_{j}+b是输⼊的带权和。

45118
来自专栏CreateAMind

TensorFlow 文档:MNIST机器学习入门

912

扫码关注云+社区