首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >策略梯度中值函数逼近的稳定性

策略梯度中值函数逼近的稳定性
EN

Data Science用户
提问于 2018-10-16 19:23:24
回答 1查看 140关注 0票数 1

在DQN中,Q值的函数逼近对于相关更新是不稳定的.在具有基线的策略梯度中,策略的值函数是否不会被相同的相关更新所困扰?

例如,在加强型基线算法中,更新按时间顺序应用于每个时间步骤。我知道,在策略梯度中,目标是估计策略的值,而不一定是整个状态空间;然而,在随机环境和/或随机策略下,并不是所有的状态都会以相同的概率被采样,从而导致对特定轨迹的过度拟合,这意味着值函数将不能作为策略其他轨迹的基线。是否有算法在拟合数据和/或收集轨迹批次之前对轨迹进行洗牌,然后像DQN那样从批中随机取样?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-10-19 01:09:27

简短的回答是肯定的。看看RL的异步方法。类似于经验回放的采样有助于打破相关性,异步方法基于让多个代理与同一环境的多个实例交互。

流程:每个代理(称为工人)收集自己的经验,直到一个指定的时间步骤t_{max},该时间步骤存储在一个批处理中。然后,主网络通过使用此批执行培训更新。更新后,每个工作人员都会将相同的网络重置为主服务器,然后重新开始任务。更新可以是同步的(如我在这里使用批处理描述的),也可以是异步的,方法是使用多个代理自己的参数训练它们,然后异步地更新主网络。

这有什么用?每个代理的经验是独立于其他人的经验,因此更多样化,这有助于保持相关性下降。

对你的问题有几点补充意见:

  • 在策略梯度(PG)中的目标是优化期望报酬w.r.t的一些参数,这类似于策略函数的梯度估计(由这些参数参数化)。
  • 在RL中,特别是在策略梯度中,您主要处理3件事情:状态样本相关性、梯度估计器的偏差和方差。基线的引入是在不引入任何偏差的情况下减小梯度估计器中的方差。基线称为控制变量,用于降低蒙特卡罗估计量(这里的梯度估计量)的方差,且具有零均值。
票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/39789

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档