我对强化学习和训练强化学习智能体的实验都很陌生。
我对奖励公式持怀疑态度,在给定的状态下,如果智能体采取了良好的行动,我会给予积极的奖励,如果行动不好,我会给予消极的奖励。因此,如果我给智能体非常高的积极奖励时,它采取了良好的行动,例如100倍的积极价值与消极奖励相比,它会帮助智能体在培训期间?
直觉上,我觉得这将有助于培训代理,但这种倾斜的奖励结构会有什么缺点吗?
发布于 2019-11-27 21:25:38
嗯,一般来说,我(基于我的经验的个人观点)认为奖励应该与它对代理的影响相关。如果问题是奖励稀少,你可以看看这个Arxiv Insights Youtube,看看如何解决这个问题。
我可以举一个可能具有挑战性的例子:如果奖励是积极的,而不是坏的奖励是负的,那么智能体可能不会太在意它是否冒着在州以负奖励结束的风险,以获得大的正奖励。所以你可能会和一个有风险的代理人在一起。
https://stackoverflow.com/questions/59048803
复制相似问题