文章/答案/技术大牛

发布

问制定奖励结构
EN

Stack Overflow用户

提问于 2019-11-26 18:28:16

回答 1查看 40关注 0票数 0

我对强化学习和训练强化学习智能体的实验都很陌生。

我对奖励公式持怀疑态度，在给定的状态下，如果智能体采取了良好的行动，我会给予积极的奖励，如果行动不好，我会给予消极的奖励。因此，如果我给智能体非常高的积极奖励时，它采取了良好的行动，例如100倍的积极价值与消极奖励相比，它会帮助智能体在培训期间？

直觉上，我觉得这将有助于培训代理，但这种倾斜的奖励结构会有什么缺点吗？

发布于 2019-11-27 21:25:38

嗯，一般来说，我(基于我的经验的个人观点)认为奖励应该与它对代理的影响相关。如果问题是奖励稀少，你可以看看这个Arxiv Insights Youtube，看看如何解决这个问题。

我可以举一个可能具有挑战性的例子:如果奖励是积极的，而不是坏的奖励是负的，那么智能体可能不会太在意它是否冒着在州以负奖励结束的风险，以获得大的正奖励。所以你可能会和一个有风险的代理人在一起。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59048803

复制

相似问题

问制定奖励结构EN