我从几个来源研究了蒙特卡洛树搜索,比如:http://www.incompleteideas.net/609%20dropbox/other%20readings%20and%20resources/MCTS-survey.pdf
然而,我不明白蒙特卡罗树搜索的UCB公式中为什么会有对数(和平方根)(第2.4.2和3.3.1节)。
公式如下:
发布于 2022-08-02 12:45:53
方程的左边是一个最大似然估计,即它只是对这个节点的观察赢率的一个度量,而右边是一个不确定性的估计。我们越不确定,我们就越重视节点,这就促进了探索。
最终,无论什么函数的使用,都可以归结为设计他们想要在算法中显示的曲线的形状,以及这个形状是如何决定的,你必须阅读相关文献。如果你想要可视化的曲线形状,你可以简单地键入graph square root of (ln x / y)
到谷歌搜索,它会给你一个互动的图形,你可以检查。
在不确定度测量中,常使用对数,因为它是一种表示每一增量增值的影响比以前小的方法,所以随着我们有更多的信息,它对我们的估计的影响越来越小,这是有意义的,因为我们拥有的信息越多,我们就越相信我们的估计是正确的。
平方根做同样的事情,除了在较小的程度。然而,在0和1的值之间,曲线的形状是不同的。对于对数,低于0的数值是负的,但是由于它是计数的对数,所以从来没有。对于平方根,其值在0到1之间迅速增加,然后大大减缓其总体增长。因为ln(sp) / si
的值通常在0到1之间(任何时候使用对数的si > ln(sp)
都没有意义,因为它会从估计值中减去,并降低我们探索该分支的可能性!)
https://stackoverflow.com/questions/69258554
复制相似问题