当我谈到策略优化时,它会被引用到下面的图片,并且它被链接到DFO/进化论加上策略梯度。

我想知道这样的说法是否正确:策略优化学习策略,以更高的概率做出更好的行动?
另外,最大化策略优化在图片中的位置是什么?
发布于 2018-11-13 20:38:01
在我看来,你问题中的图像就像一个松散的层次,解释了各种强化学习方法是如何相互关联的。在顶部是基于值的算法还是基于策略的算法,最底层的是更具体的方法。
有不止一种方法可以对RL算法进行分类和拆分,尝试并包括它们之间的所有关联方式都是很麻烦的。请记住,这是一个非常粗略的指南。
基于价值的方法与基于政策的方法的主要区别是:
注释actor-批评者与两个标题相关联,因为它学习了策略函数(“参与者”)和值函数(“批评家”)。
我想知道这样的说法是否正确:策略优化学习策略,以更高的概率做出更好的行动?
是的,这大体上是正确的,尽管你没有定义“更好”。策略函数通常会对任何给定状态的可能操作返回某种概率分布。当学习时,它将倾向于增加行动的概率,从而获得更好的回报(折扣的回报),并降低那些没有得到回报的行为的概率。但是,这可能是一个非常随机、高方差的过程,这取决于环境。
也有例外。一些基于策略的方法学习确定性策略a=\pi(s, \theta),并根据不同动作的结果,通过向该函数添加一些噪声来调整值,从而探索和调整该函数。这些行为不像你的陈述(因为没有更高的可能性)。
另外,最大化策略优化在图片中的位置是什么?
近端策略优化绝对是一种基于策略的方法,它也使用一个值函数的估计来进行更新(在本例中是一个名为advantage的值,您也可以在Advantage批评者中看到它)。
在图表中,我可能会把它放在Actor-批评者方法下面的一个新行中,作为一个具体的示例。然而,基于它如何限制政策功能的重大变化,它确实与“香草”演员批评家有一些显著的不同。
https://datascience.stackexchange.com/questions/41177
复制相似问题