首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >什么是效用?

什么是效用?
EN

Stack Overflow用户
提问于 2017-11-29 18:19:24
回答 2查看 2.3K关注 0票数 1

作为Q学习的一部分,目标是最大化预期的效用。我知道呀

阅读维基百科:https://en.wikipedia.org/wiki/Q-learning描述了在以下上下文中的预期效用:

它的工作方式是学习一个动作值函数,该函数最终给出在给定状态下采取给定行动并随后遵循最优策略的预期效用。 Q学习的优点之一是它能够比较可用操作的预期效用,而不需要环境模型。

但是没有定义什么是效用,什么是效用?

当最大化utility时,究竟是什么在最大化?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-11-29 18:27:20

在这种情况下,“实用程序”是指功能或有用性。因此,“最大的功能”或“最大的用途”。

将这个词插入Google会给你:

有益的状态有用的、有利可图的或有益的

票数 1
EN

Stack Overflow用户

发布于 2017-11-30 07:59:34

一般来说,公用事业意味着有利可图或有益(如@Rob在他的答复中所示)。

在Q-学习环境中,实用程序与动作值函数是紧密相关的(它们可以被视为同义词),正如您在维基百科的解释中所读到的那样。这里,策略π的动作值函数是对代理在给定状态s中执行动作a并遵循策略π时所获得的返回(长期报酬)的估计。所以,当你最大限度地发挥效用时,实际上你是在最大化你的代理人会得到的回报。当奖励被定义为实现一个目标时,你正在最大化所达到的目标的“数量”。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47559290

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档