首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >确定性策略梯度相对于随机策略梯度的优势是什么?

确定性策略梯度相对于随机策略梯度的优势是什么?
EN

Stack Overflow用户
提问于 2017-03-13 20:08:30
回答 2查看 2.6K关注 0票数 12

深度确定性策略梯度(DDPG)是动作空间连续时强化学习的最新方法。它的核心算法是Deterministic Policy Gradient

然而,在阅读了论文和听了the talk (http://techtalks.tv/talks/deterministic-policy-gradient-algorithms/61098/)之后,我仍然无法弄清楚确定性PG相对于随机PG的根本优势是什么。谈话说它更适合高维动作,更容易训练,但为什么会这样呢?

EN

回答 2

Stack Overflow用户

发布于 2017-09-22 00:20:24

策略梯度法的主要原因是要解决连续动作空间问题,这是由于全局Q最大化给Q学习带来的困难。

SPG能够解决连续动作空间问题,因为它用连续的概率分布来表示策略。由于SPG假设其政策是一个分布,它需要积分超过行动,以获得整体奖励的梯度。SPG采用重要性抽样来完成此集成。

DPG通过从状态到动作的确定性映射来表示策略。它可以这样做,因为它不采取全局最大Q的动作,而是根据确定性映射(如果是on策略)选择动作,同时通过Q的梯度( on和off策略)移动该确定性映射。因此,总体奖励的梯度具有一种形式,不需要对动作的积分,并且更容易计算。

可以说,从随机策略到确定性策略的转变似乎是一种倒退。但是,随机策略首先被引入来处理连续动作空间。确定性策略现在提供了另一种处理连续操作空间的方法。

我的观察是从这些论文获得的:

确定性策略梯度算法

函数逼近强化学习的策略梯度方法

基于深度强化学习的连续控制

票数 8
EN

Stack Overflow用户

发布于 2017-07-26 18:17:13

因为策略是确定性的,而不是随机性的,这意味着每个状态只会选择一个操作。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42763293

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档