我用蒙特卡洛树搜索( Monte Search,MCTS)和UCB1进行节点选择,我制作了一个程序来对一个人播放UCB1。该程序将播放移动,直到它赢了,但它不会作出任何尝试,以阻止其他玩家。这是算法的本质,还是我在实现上犯了错误?
发布于 2016-12-12 00:29:43
你犯了一个错误--很可能不认为人类的“好”举动是不好的举动。
你为什么要用蒙特卡洛来对付Tic-Tac-脚趾呢?只有1/3的可能性和不到20k的可能板(其中一些不可能存在)。彻底的搜索应该是可能的,在人类的即时时间。
https://softwareengineering.stackexchange.com/questions/337961
复制相似问题