蒙特卡洛波束搜索在神经网络和强化学习的研究中经常被引用。它是什么?它与蒙特卡洛搜索有何不同。
发布于 2019-06-05 02:10:58
蒙特卡洛树搜索一个最好的第一,基于滚动的树搜索算法,这是最先进的多游戏。它的工作原理是基于搜索空间的随机抽样扩展搜索树。
波束搜索只扩展有限集合中最有希望的节点。它被广泛应用于基于序列的任务,如NLP和音乐生成。波束搜索的一个主要优势是,它保持了大型系统的易处理性,其中可能的结果数量可能超过内存限制。
蒙特卡洛光束搜索由Cazenave和Baier, et al.在2012年的两篇论文中介绍,它扩展了嵌套蒙特卡罗搜索,其中玩游戏是基于较低级别的嵌套蒙特卡罗搜索的结果来选择每一步。最低级别是playout (随机走法的游戏)。
引用论文:
大小
对于每一级,光束的大小是固定的。只有
最佳播放保持在给定的级别。
例如,波束搜索大小为2意味着在每次移动时,保留所有子对象中最好的两个位置。这比保留所有子级的内存效率更高。
https://stackoverflow.com/questions/56449254
复制相似问题