问Berkeley Pac-Man项目:功能除以10
EN

Stack Overflow用户

提问于 2013-05-04 19:43:47

回答 1查看 1.1K关注 0票数 0

我正忙着为吃豆人游戏编写强化学习智能体，偶然发现了伯克利的CS课程的吃豆人项目，特别是reinforcement learning section。

对于近似Q学习智能体，使用特征近似。在this code中实现了一个简单的提取器。我很好奇的是，为什么在功能返回之前，它们被缩小了10？通过运行没有因子10的解决方案，您可以注意到Pac-Man的表现明显更差，但为什么呢？

发布于 2013-05-09 03:27:16

在运行多个测试之后，结果表明，最佳Q值可能会偏离很远。事实上，这些特征都可以变成负面的，甚至是那些通常会让PacMan吃药的特征。所以他只是站在那里，并最终试图逃离幽灵，但从来没有试图完成一个关卡。

我推测，当他在训练中失败时，这种情况就会发生，负奖励通过系统传播，由于潜在的幽灵数量可能大于1，这对权重有很大的影响，导致一切变得非常负面，系统无法从中“恢复”。

我通过将特征提取器调整为仅缩放#-of-ghosts-one-step-away要素来确认这一点，然后PacMan会设法获得更好的结果

回想起来，这个问题现在更加数学，可能更适合另一个stackexchange。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16373902

复制

相似问题

问Berkeley Pac-Man项目:功能除以10EN