首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >策略优化是否学习策略以更高的概率做出更好的行动?

策略优化是否学习策略以更高的概率做出更好的行动?
EN

Data Science用户
提问于 2018-11-13 17:51:23
回答 1查看 78关注 0票数 1

当我谈到策略优化时,它会被引用到下面的图片,并且它被链接到DFO/进化论加上策略梯度。

我想知道这样的说法是否正确:策略优化学习策略,以更高的概率做出更好的行动?

另外,最大化策略优化在图片中的位置是什么?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-11-13 20:38:01

在我看来,你问题中的图像就像一个松散的层次,解释了各种强化学习方法是如何相互关联的。在顶部是基于值的算法还是基于策略的算法,最底层的是更具体的方法。

有不止一种方法可以对RL算法进行分类和拆分,尝试并包括它们之间的所有关联方式都是很麻烦的。请记住,这是一个非常粗略的指南。

基于价值的方法与基于政策的方法的主要区别是:

  • 基于值的方法学习一个值函数(通过与环境或其模型的交互),并将最优策略考虑为以最大值采取行动的策略。
  • 基于策略的方法直接学习策略函数,许多方法可以这样做,而无需考虑状态或操作的估计值(尽管它们可能仍然需要在情节中计算单个值或返回)。

注释actor-批评者与两个标题相关联,因为它学习了策略函数(“参与者”)和值函数(“批评家”)。

我想知道这样的说法是否正确:策略优化学习策略,以更高的概率做出更好的行动?

是的,这大体上是正确的,尽管你没有定义“更好”。策略函数通常会对任何给定状态的可能操作返回某种概率分布。当学习时,它将倾向于增加行动的概率,从而获得更好的回报(折扣的回报),并降低那些没有得到回报的行为的概率。但是,这可能是一个非常随机、高方差的过程,这取决于环境。

也有例外。一些基于策略的方法学习确定性策略a=\pi(s, \theta),并根据不同动作的结果,通过向该函数添加一些噪声来调整值,从而探索和调整该函数。这些行为不像你的陈述(因为没有更高的可能性)。

另外,最大化策略优化在图片中的位置是什么?

近端策略优化绝对是一种基于策略的方法,它也使用一个值函数的估计来进行更新(在本例中是一个名为advantage的值,您也可以在Advantage批评者中看到它)。

在图表中,我可能会把它放在Actor-批评者方法下面的一个新行中,作为一个具体的示例。然而,基于它如何限制政策功能的重大变化,它确实与“香草”演员批评家有一些显著的不同。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/41177

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档