我目前正在实施Q学习,以解决一个迷宫,其中包含火灾,引发随机。如果该方向发生火灾,我是否应该将此行为编码为不作为代理人的选择,或者我的报酬是否应该这样做呢?谢谢
发布于 2022-05-26 10:23:08
TL博士:限制行动是绝对可以的。
可用的操作可以是状态依赖的。这可以通过物理上的限制来实现(不可能进入隔离墙)。这方面的一个基本示例是RL在图上移动的应用(请参阅以下代码:https://education.dellemc.com/content/dam/dell-emc/documents/en-us/2020KS_Nannapaneni-Optimal_path_routing_using_Reinforcement_Learning.pdf)。
此外,您还可以通过设计策略来限制您的操作,即使它们是允许的(例如,实际可行的)。在概率策略的情况下,可以将“火”操作设置为概率为零。
https://stackoverflow.com/questions/72385956
复制相似问题