强化学习读书笔记（13）| Off-policy Methods with Approximation（下）

用户1621951

发布于 2019-11-05 14:51:15

8030

发布于 2019-11-05 14:51:15

文章被收录于专栏：数据魔术师

Stochastic Gradient Descent

in the Bellman Error

The Bellman Error is Not Learnable

Gradient-TD Methods

TDC on Baird’s counterexample 问题描述见 Off-policy Methods with Approximation(上)。

代码编写:

结果：

Emphatic-TD Methods

结果：

Reducing Variance

小结

本章将off-policy learning分为两部分来讨论。第一部分针对off-policy learning 中不断变化的update target，针对tabular case提供了一些方法（off-policy TD 等），但存在很大的方差，这也是off-policy learning 的一大挑战。第二部分是本章关注的重点，主要发生在将函数逼近用于 off-policy learning时。我们发现一旦集齐 function approximation，off-policy learning 和bootstrapping TD method三大死亡要素，算法必然发散。那么很自然想到去掉其中之一，这里我们考虑去掉bootstrapping TD method。有很多处理方法，其中最受欢迎的是找到一个基于Bellman error BE的true SGD方法。但本章中我们分析该方法由于 BE是 not learnable的，因此在很多情况下不适用。另一个方案是Gradient-TD methods，将SGD用于projected Bellman error PBE。PBE是一个learnable的计算复杂度为 O(d)的目标函数。Emphatic-TD方法有侧重的进行更新，基于这一思想，在off-policy learning中采用semi-gradient方法的同时保留了on-policy learning的稳定性。

参考：

R.Sutton et al. Reinforcement learning: An introduction , 1998 https://blog.csdn.net/LagrangeSK/article/details/82181776 https://blog.csdn.net/qq_25037903/article/details/82713736

https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-10-29，如有侵权请联系 cloudcommunity@tencent.com 删除

https