开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >强化学习读书笔记（14）| 资格迹 Eligibility Traces（上）

强化学习读书笔记（14）| 资格迹 Eligibility Traces（上）

用户1621951

发布于 2019-11-08 10:15:06

1.6K0

发布于 2019-11-08 10:15:06

举报

文章被收录于专栏：数据魔术师

前言

The λ- return

TD(λ)

n-step Truncated λ-return Methods

Redoing Updates:

Online λ-return Algorithm

小结

资格迹与TD error的结合提供了一个高效增量形式的在MC和TD算法之间转换和选择的方式。第七章介绍的n步算法也能做到，但是eligibility trace方法更加通用，学习速度更快而且共不同计算复杂度的选择。

第五章提到MC算法在非马尔科夫的任务中有优势，因为它不使用自举。而eligibility trace方法使得TD算法更像MC算法，因此带eligibility trace的TD也能够得到这种优势。如果想用TD算法的一些特性而任务又是部分非马尔科夫的，就可以选择使用eligibility trace形式的TD。

参考资料：

[1] R.Sutton et al. Reinforcement learning: An introduction , 1998

[2] https://blog.csdn.net/LagrangeSK/article/details/82556644

[3] https://blog.csdn.net/qq_25037903/article/details/82756629

[4] https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

转载自 | 公众号老薛带你学Python

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-11-07，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自数据魔术师微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.