我已经创建了一个可以玩奥赛罗的小AI程序。我使用的算法(MCTS UTC)有一个参数,我可以在这个参数中调整勘探与开采比率。这是一个从0到10的单个浮点值(无穷大是可能的,但高值没有太大意义)
对于这个参数的不同值,我可以很容易地让算法自己发挥作用。这会让我知道这两个值中哪一个更好。
什么是优化这个参数的好算法?
(我更喜欢有一些研究或出版物的算法,以深入了解为什么或何时它工作得最好。)
发布于 2017-02-08 00:46:05
考虑一些关于遗传算法的东西,其中程序自我发挥,赢家比率保持不变,并略有变化。跟踪这些值。随着时间的推移,它可能会收敛到一个“最佳”平衡。
https://stackoverflow.com/questions/42094657
复制相似问题