文章/答案/技术大牛

发布

社区首页 >问答首页 >策略梯度中值函数逼近的稳定性

问策略梯度中值函数逼近的稳定性
EN

Data Science用户

提问于 2018-10-16 19:23:24

回答 1查看 140关注 0票数 1

在DQN中，Q值的函数逼近对于相关更新是不稳定的.在具有基线的策略梯度中，策略的值函数是否不会被相同的相关更新所困扰？

例如，在加强型基线算法中，更新按时间顺序应用于每个时间步骤。我知道，在策略梯度中，目标是估计策略的值，而不一定是整个状态空间；然而，在随机环境和/或随机策略下，并不是所有的状态都会以相同的概率被采样，从而导致对特定轨迹的过度拟合，这意味着值函数将不能作为策略其他轨迹的基线。是否有算法在拟合数据和/或收集轨迹批次之前对轨迹进行洗牌，然后像DQN那样从批中随机取样？

reinforcement-learning

policy-gradients

actor-critic

neural-network

回答 1

Data Science用户

回答已采纳

发布于 2018-10-19 01:09:27

简短的回答是肯定的。看看RL的异步方法。类似于经验回放的采样有助于打破相关性，异步方法基于让多个代理与同一环境的多个实例交互。

流程:每个代理(称为工人)收集自己的经验，直到一个指定的时间步骤t_{max}，该时间步骤存储在一个批处理中。然后，主网络通过使用此批执行培训更新。更新后，每个工作人员都会将相同的网络重置为主服务器，然后重新开始任务。更新可以是同步的(如我在这里使用批处理描述的)，也可以是异步的，方法是使用多个代理自己的参数训练它们，然后异步地更新主网络。

这有什么用？每个代理的经验是独立于其他人的经验，因此更多样化，这有助于保持相关性下降。

对你的问题有几点补充意见：

在策略梯度(PG)中的目标是优化期望报酬w.r.t的一些参数，这类似于策略函数的梯度估计(由这些参数参数化)。
在RL中，特别是在策略梯度中，您主要处理3件事情:状态样本相关性、梯度估计器的偏差和方差。基线的引入是在不引入任何偏差的情况下减小梯度估计器中的方差。基线称为控制变量，用于降低蒙特卡罗估计量(这里的梯度估计量)的方差，且具有零均值。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/39789

复制

相似问题

问策略梯度中值函数逼近的稳定性
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问策略梯度中值函数逼近的稳定性EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问策略梯度中值函数逼近的稳定性
EN