前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习读书笔记 - 11 - off-policy的近似方法

强化学习读书笔记 - 11 - off-policy的近似方法

作者头像
绿巨人
发布2018-05-17 14:54:27
7810
发布2018-05-17 14:54:27
举报
文章被收录于专栏:绿巨人专栏绿巨人专栏

强化学习读书笔记 - 11 - off-policy的近似方法

学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

参照

需要了解强化学习的数学符号,先看看这里:

off-policy的近似方法

尽管可以使用第6,7章的方法,修改成为off-policy的近似方法,但是效果不好。 主要原因是:行为策略的分布和目标策略的分布不一致。

off-policy的近似方法的研究现在处于领域的前沿。主要有两个方向:

  • 使用重要样本的方法,扭曲样本的分布成为目标策略的分布。这样就可以使用半梯度递减方法收敛。
  • 开发一个真正的梯度递减方法,这个方法不依赖于任何分布。

原书这章还远远没有写完! 这章先停在这里了。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017-03-12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 强化学习读书笔记 - 11 - off-policy的近似方法
    • 参照
      • off-policy的近似方法
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档