首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >制定奖励结构

制定奖励结构
EN

Stack Overflow用户
提问于 2019-11-26 18:28:16
回答 1查看 40关注 0票数 0

我对强化学习和训练强化学习智能体的实验都很陌生。

我对奖励公式持怀疑态度,在给定的状态下,如果智能体采取了良好的行动,我会给予积极的奖励,如果行动不好,我会给予消极的奖励。因此,如果我给智能体非常高的积极奖励时,它采取了良好的行动,例如100倍的积极价值与消极奖励相比,它会帮助智能体在培训期间?

直觉上,我觉得这将有助于培训代理,但这种倾斜的奖励结构会有什么缺点吗?

EN

回答 1

Stack Overflow用户

发布于 2019-11-27 21:25:38

嗯,一般来说,我(基于我的经验的个人观点)认为奖励应该与它对代理的影响相关。如果问题是奖励稀少,你可以看看这个Arxiv Insights Youtube,看看如何解决这个问题。

我可以举一个可能具有挑战性的例子:如果奖励是积极的,而不是坏的奖励是负的,那么智能体可能不会太在意它是否冒着在州以负奖励结束的风险,以获得大的正奖励。所以你可能会和一个有风险的代理人在一起。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59048803

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档