前言
The λ- return
TD(λ)
n-step Truncated λ-return Methods
Redoing Updates:
Online λ-return Algorithm
小结
资格迹与TD error的结合提供了一个高效增量形式的在MC和TD算法之间转换和选择的方式。第七章介绍的n步算法也能做到,但是eligibility trace方法更加通用,学习速度更快而且共不同计算复杂度的选择。
第五章提到MC算法在非马尔科夫的任务中有优势,因为它不使用自举。而eligibility trace方法使得TD算法更像MC算法,因此带eligibility trace的TD也能够得到这种优势。如果想用TD算法的一些特性而任务又是部分非马尔科夫的,就可以选择使用eligibility trace形式的TD。
参考资料:
[1] R.Sutton et al. Reinforcement learning: An introduction , 1998
[2] https://blog.csdn.net/LagrangeSK/article/details/82556644
[3] https://blog.csdn.net/qq_25037903/article/details/82756629
[4] https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
转载自 | 公众号 老薛带你学Python