问为什么信任区域策略优化是一种策略上的算法？
EN

Stack Overflow用户

提问于 2019-03-27 06:30:21

回答 1查看 131关注 0票数 2

我想知道为什么信任区域策略优化是一种策略上的算法？

我认为，在TRPO中，我们以旧的政策为样本，更新新的政策，并应用重要性抽样来纠正偏差。因此，它更像是一种非策略算法。但最近，我读到一个纸，上面写着：

与非策略算法相比，在策略方法中需要根据当前遵循的策略更新函数逼近器.特别是，我们将考虑信赖域PolicyOptimization，这是对传统策略梯度方法的一种推广，采用了自然梯度方向。

我有什么误解吗？

回答已采纳

发布于 2019-03-27 13:47:36

政策上的方法的主要特点是，它们必须使用估计的策略才能与环境进行交互。在信任区域策略优化的情况下，它使用当前策略有效地获取样本(即与环境交互)，然后更新策略并在下一次迭代中使用新的策略估计。

因此，该算法在学习过程中使用了估计策略，即对策略方法的定义。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55371106

复制

相似问题

问为什么信任区域策略优化是一种策略上的算法？EN