开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >当你使用Q学习的时候，你能限制行动的数量吗？

问当你使用Q学习的时候，你能限制行动的数量吗？
EN

Stack Overflow用户

提问于 2022-05-26 02:11:09

回答 1查看 44关注 0票数 1

我目前正在实施Q学习，以解决一个迷宫，其中包含火灾，引发随机。如果该方向发生火灾，我是否应该将此行为编码为不作为代理人的选择，或者我的报酬是否应该这样做呢？谢谢

machine-learning

reinforcement-learning

EN

回答 1

Stack Overflow用户

发布于 2022-05-26 10:23:08

TL博士:限制行动是绝对可以的。

可用的操作可以是状态依赖的。这可以通过物理上的限制来实现(不可能进入隔离墙)。这方面的一个基本示例是RL在图上移动的应用(请参阅以下代码：https://education.dellemc.com/content/dam/dell-emc/documents/en-us/2020KS_Nannapaneni-Optimal_path_routing_using_Reinforcement_Learning.pdf)。

此外，您还可以通过设计策略来限制您的操作，即使它们是允许的(例如，实际可行的)。在概率策略的情况下，可以将“火”操作设置为概率为零。

更深层次阅读：https://arxiv.org/pdf/1906.01772.pdf

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72385956

复制

相似问题