我有一些关于POMDPs的问题。
发布于 2017-11-30 17:46:11
Actions
可控制的行动是决策者做出选择的结果。在经典的POMDP老虎问题中,有一只老虎藏在两个门的一个后面。在每一个时间步骤,决策者可以选择倾听或打开其中一扇门。此方案中的操作为{侦听、打开左门、打开右门}。从一种状态到另一种状态的转换函数取决于先前的状态和所选择的操作。
在隐马尔可夫模型(HMM)中,决策者不存在任何行为。在老虎问题中,这意味着参与者只能在不打开门的情况下聆听。在这种情况下,由于不存在操作,所以转换函数只依赖于以前的状态。
有关老虎问题的更多细节,请参阅Kaelbling和Cassandra 1998年的POMDP纸,第5.1节。在这个教程中还提供了更多的介绍性演练。
适应性
你问题中的基本直觉是正确的,但可以提炼。POMDPs是一类模型,而Q-学习是一种解决方法.你问题的基本区别在于基于模型的方法和无模型的方法。POMDP是基于模型的,尽管部分可观测性允许额外的不确定性。强化学习可以应用在无模型的上下文中,有Q学习.对于非平稳问题,无模型方法将更加灵活。尽管如此,根据问题的复杂性,您可以将非平稳性纳入模型本身,并将其视为MDP。
在这个问题的答案中,对这些非平稳模型的权衡进行了非常深入的讨论。
最后,POMDP可以看作是专家系统,这是正确的。Mazumdar等人(2017)让建议将马尔可夫决策过程(MDP)作为专家系统处理。
https://stackoverflow.com/questions/47512110
复制相似问题