我正在看“蒙特卡洛树搜索”算法的“上置信限”。
C is a weight for exploration over exploitation.
score = wins / played
sum = wins + played
UCB = score + C * sqrt(naturalLog(parent's sum) / sum)
played为0时出现问题。我正在考虑这些可能性。
score = 0
Because the node has never won, although it's never lost either.
score = 0.5
Because the node's value is completly uncertain and 0.5 is half way.
有谁有答案吗?
发布于 2011-11-26 03:03:04
每个强盗算法的第一步,包括MCTS,都是拉动每个手臂一次。由于如果您在每个节点上执行此操作,显然会导致详尽的搜索,因此您只需使用MCTS直到固定深度,并对其余节点使用转出策略。当然,你可以使用先验,但这样你就失去了UCB算法的所有良好的理论属性,主要是对数遗憾。
发布于 2011-11-26 00:49:02
这都是关于熵的。没有观测值(N=0),方差是未定义的(未确定的),置信限是无限的。你不可能无中生有地得到信息。
您可以通过使用先验或通过添加一个小的校正来进行校正,以避免除以零或取零的对数。或者做最少数量的探测。通常,只有当节点的N达到某个限制(10...100)时,节点才会扩展。
https://stackoverflow.com/questions/8271210
复制相似问题