我正忙着为吃豆人游戏编写强化学习智能体,偶然发现了伯克利的CS课程的吃豆人项目,特别是reinforcement learning section。
对于近似Q学习智能体,使用特征近似。在this code中实现了一个简单的提取器。我很好奇的是,为什么在功能返回之前,它们被缩小了10?通过运行没有因子10的解决方案,您可以注意到Pac-Man的表现明显更差,但为什么呢?
发布于 2013-05-09 03:27:16
在运行多个测试之后,结果表明,最佳Q值可能会偏离很远。事实上,这些特征都可以变成负面的,甚至是那些通常会让PacMan吃药的特征。所以他只是站在那里,并最终试图逃离幽灵,但从来没有试图完成一个关卡。
我推测,当他在训练中失败时,这种情况就会发生,负奖励通过系统传播,由于潜在的幽灵数量可能大于1,这对权重有很大的影响,导致一切变得非常负面,系统无法从中“恢复”。
我通过将特征提取器调整为仅缩放#-of-ghosts-one-step-away
要素来确认这一点,然后PacMan会设法获得更好的结果
回想起来,这个问题现在更加数学,可能更适合另一个stackexchange。
https://stackoverflow.com/questions/16373902
复制相似问题