TD(0)算法被定义为以下迭代更新:
现在,假设alpha等于1,则得到了动态规划中传统的策略评估公式。这是正确的吗?
发布于 2020-01-06 16:06:50
\alpha算法与RL算法的类型无关。它是学习速率,即更新状态值的速率。你可以把它设置为1或更少。
政策评估是一项“一般原则”。时间上的差异是让它发挥作用的一种方式。更准确地说,TD定义了您在未来考虑到某一行为的后果的程度。在你的方程式中,伽马定义了你对未来的考虑程度。
发布于 2020-06-15 13:53:30
非动态规划首先通过查看所有可能的下一个状态来估计下一个状态的值。时差0仅通过查看单个下一个状态来估计下一个状态的值。
https://datascience.stackexchange.com/questions/65734
复制相似问题