Stochastic Gradient Descent
in the Bellman Error
The Bellman Error is Not Learnable
Gradient-TD Methods
TDC on Baird’s counterexample 问题描述见 Off-policy Methods with Approximation(上)。
代码编写:
结果:
Emphatic-TD Methods
结果:
Reducing Variance
小结
本章将off-policy learning分为两部分来讨论。第一部分针对off-policy learning 中不断变化的update target,针对tabular case提供了一些方法(off-policy TD 等),但存在很大的方差,这也是off-policy learning 的一大挑战。第二部分是本章关注的重点,主要发生在将函数逼近用于 off-policy learning时。我们发现一旦集齐 function approximation,off-policy learning 和bootstrapping TD method三大死亡要素,算法必然发散。那么很自然想到去掉其中之一,这里我们考虑去掉bootstrapping TD method。有很多处理方法,其中最受欢迎的是找到一个基于Bellman error BE的true SGD方法。但本章中我们分析该方法由于 BE是 not learnable的,因此在很多情况下不适用。另一个方案是Gradient-TD methods,将SGD用于projected Bellman error PBE。PBE是一个learnable的计算复杂度为 O(d)的目标函数。Emphatic-TD方法有侧重的进行更新,基于这一思想,在off-policy learning中采用semi-gradient方法的同时保留了on-policy learning的稳定性。
参考:
R.Sutton et al. Reinforcement learning: An introduction , 1998 https://blog.csdn.net/LagrangeSK/article/details/82181776 https://blog.csdn.net/qq_25037903/article/details/82713736
https://github.com/ShangtongZhang/reinforcement-learning-an-introduction