前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习读书笔记(13)| Off-policy Methods with Approximation(下)

强化学习读书笔记(13)| Off-policy Methods with Approximation(下)

作者头像
用户1621951
发布2019-11-05 14:51:15
7580
发布2019-11-05 14:51:15
举报
文章被收录于专栏:数据魔术师数据魔术师

Stochastic Gradient Descent

in the Bellman Error

The Bellman Error is Not Learnable

Gradient-TD Methods

TDC on Baird’s counterexample 问题描述见 Off-policy Methods with Approximation(上)。

代码编写:

结果:

Emphatic-TD Methods

结果:

Reducing Variance

小结

本章将off-policy learning分为两部分来讨论。第一部分针对off-policy learning 中不断变化的update target,针对tabular case提供了一些方法(off-policy TD 等),但存在很大的方差,这也是off-policy learning 的一大挑战。第二部分是本章关注的重点,主要发生在将函数逼近用于 off-policy learning时。我们发现一旦集齐 function approximation,off-policy learning 和bootstrapping TD method三大死亡要素,算法必然发散。那么很自然想到去掉其中之一,这里我们考虑去掉bootstrapping TD method。有很多处理方法,其中最受欢迎的是找到一个基于Bellman error BE的true SGD方法。但本章中我们分析该方法由于 BE是 not learnable的,因此在很多情况下不适用。另一个方案是Gradient-TD methods,将SGD用于projected Bellman error PBE。PBE是一个learnable的计算复杂度为 O(d)的目标函数。Emphatic-TD方法有侧重的进行更新,基于这一思想,在off-policy learning中采用semi-gradient方法的同时保留了on-policy learning的稳定性。

参考:

R.Sutton et al. Reinforcement learning: An introduction , 1998 https://blog.csdn.net/LagrangeSK/article/details/82181776 https://blog.csdn.net/qq_25037903/article/details/82713736

https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-10-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据魔术师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档