我读过一些文章,其中大多数都说3-ply提高了自动玩家训练的性能。但这实际上是什么呢?这是如何实现的呢?
发布于 2021-03-11 05:08:52
由于掷骰子的原因,游戏中存在随机性,因此一种方法是通过自玩RL来评估状态位置,然后在玩的时候对所有可能的骰子组合进行2层搜索。这将是36 +6,即42个可能的滚动,然后你必须做出不同的动作,这会将树的呼吸增加到疯狂的程度。我试过了,但失败了,因为我的Mac不能处理这样的计算。相反,我们可以做的只是随机化几个骰子,并使用Alpha Beta剪枝执行MiniMax树搜索(使用AfterState value函数)。
对于1层搜索,我们只需使用掷骰子,或者如果我们想在掷骰子之前预测数值,那么我们可以简单地循环所有可能的组合。然后我们只需在余态上使用argmax。
https://stackoverflow.com/questions/58434745
复制相似问题