作为Q学习的一部分,目标是最大化预期的效用。我知道呀
阅读维基百科:https://en.wikipedia.org/wiki/Q-learning描述了在以下上下文中的预期效用:
它的工作方式是学习一个动作值函数,该函数最终给出在给定状态下采取给定行动并随后遵循最优策略的预期效用。 Q学习的优点之一是它能够比较可用操作的预期效用,而不需要环境模型。
但是没有定义什么是效用,什么是效用?
当最大化utility
时,究竟是什么在最大化?
发布于 2017-11-29 10:27:20
在这种情况下,“实用程序”是指功能或有用性。因此,“最大的功能”或“最大的用途”。
将这个词插入Google会给你:
有益的状态有用的、有利可图的或有益的
发布于 2017-11-29 23:59:34
一般来说,公用事业意味着有利可图或有益(如@Rob在他的答复中所示)。
在Q-学习环境中,实用程序与动作值函数是紧密相关的(它们可以被视为同义词),正如您在维基百科的解释中所读到的那样。这里,策略π
的动作值函数是对代理在给定状态s
中执行动作a
并遵循策略π
时所获得的返回(长期报酬)的估计。所以,当你最大限度地发挥效用时,实际上你是在最大化你的代理人会得到的回报。当奖励被定义为实现一个目标时,你正在最大化所达到的目标的“数量”。
https://stackoverflow.com/questions/47559290
复制相似问题