首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >α等于1时动态规划中TD(0)算法与策略评估的一致性

α等于1时动态规划中TD(0)算法与策略评估的一致性
EN

Data Science用户
提问于 2020-01-02 15:00:12
回答 2查看 101关注 0票数 2

TD(0)算法被定义为以下迭代更新:

V(s) \leftarrow V(s) + \alpha({r + \gamma V(s')} - V(s) )

现在,假设alpha等于1,则得到了动态规划中传统的策略评估公式。这是正确的吗?

EN

回答 2

Data Science用户

发布于 2020-01-06 16:06:50

\alpha算法与RL算法的类型无关。它是学习速率,即更新状态值的速率。你可以把它设置为1或更少。

政策评估是一项“一般原则”。时间上的差异是让它发挥作用的一种方式。更准确地说,TD定义了您在未来考虑到某一行为的后果的程度。在你的方程式中,伽马定义了你对未来的考虑程度。

票数 0
EN

Data Science用户

发布于 2020-06-15 13:53:30

非动态规划首先通过查看所有可能的下一个状态来估计下一个状态的值。时差0仅通过查看单个下一个状态来估计下一个状态的值。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/65734

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档