前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习读书笔记(14)| 资格迹 Eligibility Traces(上)

强化学习读书笔记(14)| 资格迹 Eligibility Traces(上)

作者头像
用户1621951
发布2019-11-08 10:15:06
1.5K0
发布2019-11-08 10:15:06
举报
文章被收录于专栏:数据魔术师数据魔术师

前言

The λ- return

TD(λ)

n-step Truncated λ-return Methods

Redoing Updates:

Online λ-return Algorithm

小结

资格迹与TD error的结合提供了一个高效增量形式的在MC和TD算法之间转换和选择的方式。第七章介绍的n步算法也能做到,但是eligibility trace方法更加通用,学习速度更快而且共不同计算复杂度的选择。

第五章提到MC算法在非马尔科夫的任务中有优势,因为它不使用自举。而eligibility trace方法使得TD算法更像MC算法,因此带eligibility trace的TD也能够得到这种优势。如果想用TD算法的一些特性而任务又是部分非马尔科夫的,就可以选择使用eligibility trace形式的TD。

参考资料:

[1] R.Sutton et al. Reinforcement learning: An introduction , 1998

[2] https://blog.csdn.net/LagrangeSK/article/details/82556644

[3] https://blog.csdn.net/qq_25037903/article/details/82756629

[4] https://github.com/ShangtongZhang/reinforcement-learning-an-introduction


转载自 | 公众号 老薛带你学Python

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据魔术师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档