首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >当你使用Q学习的时候,你能限制行动的数量吗?

当你使用Q学习的时候,你能限制行动的数量吗?
EN

Stack Overflow用户
提问于 2022-05-26 02:11:09
回答 1查看 44关注 0票数 1

我目前正在实施Q学习,以解决一个迷宫,其中包含火灾,引发随机。如果该方向发生火灾,我是否应该将此行为编码为不作为代理人的选择,或者我的报酬是否应该这样做呢?谢谢

EN

回答 1

Stack Overflow用户

发布于 2022-05-26 10:23:08

TL博士:限制行动是绝对可以的。

可用的操作可以是状态依赖的。这可以通过物理上的限制来实现(不可能进入隔离墙)。这方面的一个基本示例是RL在图上移动的应用(请参阅以下代码:https://education.dellemc.com/content/dam/dell-emc/documents/en-us/2020KS_Nannapaneni-Optimal_path_routing_using_Reinforcement_Learning.pdf)。

此外,您还可以通过设计策略来限制您的操作,即使它们是允许的(例如,实际可行的)。在概率策略的情况下,可以将“火”操作设置为概率为零。

更深层次阅读:https://arxiv.org/pdf/1906.01772.pdf

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72385956

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档