在DQN中,Q值的函数逼近对于相关更新是不稳定的.在具有基线的策略梯度中,策略的值函数是否不会被相同的相关更新所困扰?
例如,在加强型基线算法中,更新按时间顺序应用于每个时间步骤。我知道,在策略梯度中,目标是估计策略的值,而不一定是整个状态空间;然而,在随机环境和/或随机策略下,并不是所有的状态都会以相同的概率被采样,从而导致对特定轨迹的过度拟合,这意味着值函数将不能作为策略其他轨迹的基线。是否有算法在拟合数据和/或收集轨迹批次之前对轨迹进行洗牌,然后像DQN那样从批中随机取样?
发布于 2018-10-19 01:09:27
简短的回答是肯定的。看看RL的异步方法。类似于经验回放的采样有助于打破相关性,异步方法基于让多个代理与同一环境的多个实例交互。
流程:每个代理(称为工人)收集自己的经验,直到一个指定的时间步骤t_{max},该时间步骤存储在一个批处理中。然后,主网络通过使用此批执行培训更新。更新后,每个工作人员都会将相同的网络重置为主服务器,然后重新开始任务。更新可以是同步的(如我在这里使用批处理描述的),也可以是异步的,方法是使用多个代理自己的参数训练它们,然后异步地更新主网络。
这有什么用?每个代理的经验是独立于其他人的经验,因此更多样化,这有助于保持相关性下降。
对你的问题有几点补充意见:
https://datascience.stackexchange.com/questions/39789
复制相似问题