文章/答案/技术大牛

发布

社区首页 >问答首页 >播放或访问为0时蒙特卡洛树搜索的置信度上限

问播放或访问为0时蒙特卡洛树搜索的置信度上限
EN

Stack Overflow用户

提问于 2011-11-25 23:31:31

回答 2查看 2.7K关注 0票数 2

我正在看“蒙特卡洛树搜索”算法的“上置信限”。

C is a weight for exploration over exploitation.
score = wins / played
sum = wins + played
UCB = score + C * sqrt(naturalLog(parent's sum) / sum)

played为0时出现问题。我正在考虑这些可能性。

score = 0
Because the node has never won, although it's never lost either.

score = 0.5
Because the node's value is completly uncertain and 0.5 is half way.

有谁有答案吗？

tree

algorithm

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-11-26 03:03:04

每个强盗算法的第一步，包括MCTS，都是拉动每个手臂一次。由于如果您在每个节点上执行此操作，显然会导致详尽的搜索，因此您只需使用MCTS直到固定深度，并对其余节点使用转出策略。当然，你可以使用先验，但这样你就失去了UCB算法的所有良好的理论属性，主要是对数遗憾。

票数 6

Stack Overflow用户

发布于 2011-11-26 00:49:02

这都是关于熵的。没有观测值(N=0)，方差是未定义的(未确定的)，置信限是无限的。你不可能无中生有地得到信息。

您可以通过使用先验或通过添加一个小的校正来进行校正，以避免除以零或取零的对数。或者做最少数量的探测。通常，只有当节点的N达到某个限制(10...100)时，节点才会扩展。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8271210

复制

相似问题

问播放或访问为0时蒙特卡洛树搜索的置信度上限
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问播放或访问为0时蒙特卡洛树搜索的置信度上限EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问播放或访问为0时蒙特卡洛树搜索的置信度上限
EN