对于四连胜的游戏,强化学习的最佳算法是什么?我想构建一个四连排的游戏,它将使用RL算法之一来玩: Q-Learning,MinMax等。
考虑到我使用的是Java,什么是最好的。
发布于 2012-01-08 16:19:57
对于这个游戏,MinMax是相当不错的。真正的问题是,在确定某个动作的“价值”时,你的启发式功能会有多好。
发布于 2017-08-30 05:41:08
MinMax通常不被认为是一种强化学习算法,但它可能是Connect4的“最好”(取决于你的意思)。
Connect4已经solved (在许多不同大小的电路板上)将近三十年了。该求解器甚至被用作称为Fhourstones的处理器基准测试,Java语言(和C语言)中的source可以免费获得。
如果你的目标是学习Q学习(以表格形式),强化,或一些更现代的强化学习算法,如使用神经网络的深度Q学习(DQN)或行动优势演员批评(A3C),那么我毫不怀疑这些都可以成功地应用于连接4。我推荐一本好书,比如Barto &Sutton的强化学习。在撰写本文时,draft of the 2nd edition的PDF格式是免费的。
然而,如果你的目标仅仅是拥有一个最好的玩家,那么你将很难击败完美的四石游戏。
https://stackoverflow.com/questions/8776230
复制相似问题