首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >为什么信任区域策略优化是一种策略上的算法?

为什么信任区域策略优化是一种策略上的算法?
EN

Stack Overflow用户
提问于 2019-03-27 06:30:21
回答 1查看 131关注 0票数 2

我想知道为什么信任区域策略优化是一种策略上的算法?

我认为,在TRPO中,我们以旧的政策为样本,更新新的政策,并应用重要性抽样来纠正偏差。因此,它更像是一种非策略算法。但最近,我读到一个,上面写着:

与非策略算法相比,在策略方法中需要根据当前遵循的策略更新函数逼近器.特别是,我们将考虑信赖域PolicyOptimization,这是对传统策略梯度方法的一种推广,采用了自然梯度方向。

我有什么误解吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-03-27 13:47:36

政策上的方法的主要特点是,它们必须使用估计的策略才能与环境进行交互。在信任区域策略优化的情况下,它使用当前策略有效地获取样本(即与环境交互),然后更新策略并在下一次迭代中使用新的策略估计。

因此,该算法在学习过程中使用了估计策略,即对策略方法的定义。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55371106

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档