我想知道为什么信任区域策略优化是一种策略上的算法?
我认为,在TRPO中,我们以旧的政策为样本,更新新的政策,并应用重要性抽样来纠正偏差。因此,它更像是一种非策略算法。但最近,我读到一个纸,上面写着:
与非策略算法相比,在策略方法中需要根据当前遵循的策略更新函数逼近器.特别是,我们将考虑信赖域PolicyOptimization,这是对传统策略梯度方法的一种推广,采用了自然梯度方向。
我有什么误解吗?
发布于 2019-03-27 13:47:36
政策上的方法的主要特点是,它们必须使用估计的策略才能与环境进行交互。在信任区域策略优化的情况下,它使用当前策略有效地获取样本(即与环境交互),然后更新策略并在下一次迭代中使用新的策略估计。
因此,该算法在学习过程中使用了估计策略,即对策略方法的定义。
https://stackoverflow.com/questions/55371106
复制相似问题