强化学习读书笔记 - 11 - off-policy的近似方法

强化学习读书笔记 - 11 - off-policy的近似方法

学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

参照

需要了解强化学习的数学符号,先看看这里:

off-policy的近似方法

尽管可以使用第6,7章的方法,修改成为off-policy的近似方法,但是效果不好。 主要原因是:行为策略的分布和目标策略的分布不一致。

off-policy的近似方法的研究现在处于领域的前沿。主要有两个方向:

  • 使用重要样本的方法,扭曲样本的分布成为目标策略的分布。这样就可以使用半梯度递减方法收敛。
  • 开发一个真正的梯度递减方法,这个方法不依赖于任何分布。

原书这章还远远没有写完! 这章先停在这里了。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏绿巨人专栏

强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces)

4096
来自专栏ml

齐次方程到矩阵(番外篇)

     最近做题,老是遇到了一些公式比如An=An-1+An-2,然后给你一个巨大n的数据,要你求An的值,然后以前做起来,还是比较的顺手的,但是时间抹去了记...

3378
来自专栏AI研习社

完全图解RNN、RNN变体、Seq2Seq、Attention机制

本文主要是利用图片的形式,详细地介绍了经典的RNN、RNN几个重要变体,以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角,帮助...

4285
来自专栏数值分析与有限元编程

矢量函数

一个由三个变量组成的函数w = f(x,y,z)表示如何根据x,y,z来确定w的值。从几何角度更有利于对这个概念的理解:在空间笛卡尔坐标系下取一点,坐标为(x,...

3127
来自专栏企鹅号快讯

受限玻尔兹曼机

关注AI君,领略人工智能之美 受限玻尔兹曼机 Restricted Bolltzmann Machine 概述 各位读者,新年好! 在《技术词条》系列文章的上一...

2969
来自专栏机器之心

观点 | 从信息论的角度理解与可视化神经网络

选自TowardsDataScience 作者:Mukul Malik 机器之心编译 参与:Pedro、思源 信息论在机器学习中非常重要,但我们通常熟知的是信息...

6135
来自专栏ATYUN订阅号

【干货】用于机器学习的线性代数速查表

NumPy,Python的数值计算库,它提供了许多线性代数函数。对机器学习从业人员用处很大。 在这篇文章中,你将看到对于机器学习从业者非常有用的处理矢量和矩阵的...

2959
来自专栏专知

【NAACL 2018】Self-attention考虑相对位置,谷歌Vaswani团队最新工作

2135
来自专栏新智元

自然语言处理中的Attention Model:是什么及为什么

要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时会简称AM模型)这个词。AM模型应该说是过去一年来NLP...

4175
来自专栏专知

深度学习文本分类方法综述(代码)

【导读】本文是数据科学家Ahmed BESBES的一篇博文,主要内容是探索不同NLP模型在文本分类的性能,围绕着文本分类任务,构建当前主流的七种不同模型:用词n...

1K3

扫码关注云+社区