首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >播放或访问为0时蒙特卡洛树搜索的置信度上限

播放或访问为0时蒙特卡洛树搜索的置信度上限
EN

Stack Overflow用户
提问于 2011-11-25 23:31:31
回答 2查看 2.7K关注 0票数 2

我正在看“蒙特卡洛树搜索”算法的“上置信限”。

代码语言:javascript
运行
复制
C is a weight for exploration over exploitation.
score = wins / played
sum = wins + played
UCB = score + C * sqrt(naturalLog(parent's sum) / sum)

played为0时出现问题。我正在考虑这些可能性。

代码语言:javascript
运行
复制
score = 0
Because the node has never won, although it's never lost either.

score = 0.5
Because the node's value is completly uncertain and 0.5 is half way.

有谁有答案吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-11-26 03:03:04

每个强盗算法的第一步,包括MCTS,都是拉动每个手臂一次。由于如果您在每个节点上执行此操作,显然会导致详尽的搜索,因此您只需使用MCTS直到固定深度,并对其余节点使用转出策略。当然,你可以使用先验,但这样你就失去了UCB算法的所有良好的理论属性,主要是对数遗憾。

票数 6
EN

Stack Overflow用户

发布于 2011-11-26 00:49:02

这都是关于熵的。没有观测值(N=0),方差是未定义的(未确定的),置信限是无限的。你不可能无中生有地得到信息。

您可以通过使用先验或通过添加一个小的校正来进行校正,以避免除以零或取零的对数。或者做最少数量的探测。通常,只有当节点的N达到某个限制(10...100)时,节点才会扩展。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8271210

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档