首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在POMDP中,我们所说的“可控行动”是什么意思?

在POMDP中,我们所说的“可控行动”是什么意思?
EN

Stack Overflow用户
提问于 2017-11-27 13:28:08
回答 1查看 375关注 0票数 2

我有一些关于POMDPs的问题。

  1. 在部分可观测的马尔可夫决策过程中,我们所说的可控行为是什么意思?还是在隐马尔可夫状态下没有可控的行为?
  2. 当通过值或策略迭代计算策略时,我们是否可以说POMDP是一个专家系统(因为我们对环境进行了建模)?然而,当使用q-学习时,它在智能或对变化的环境的适应性方面是一个更灵活的系统。
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-11-30 17:46:11

Actions

可控制的行动是决策者做出选择的结果。在经典的POMDP老虎问题中,有一只老虎藏在两个门的一个后面。在每一个时间步骤,决策者可以选择倾听或打开其中一扇门。此方案中的操作为{侦听、打开左门、打开右门}。从一种状态到另一种状态的转换函数取决于先前的状态和所选择的操作。

在隐马尔可夫模型(HMM)中,决策者不存在任何行为。在老虎问题中,这意味着参与者只能在不打开门的情况下聆听。在这种情况下,由于不存在操作,所以转换函数只依赖于以前的状态。

有关老虎问题的更多细节,请参阅Kaelbling和Cassandra 1998年的POMDP纸,第5.1节。在这个教程中还提供了更多的介绍性演练。

适应性

你问题中的基本直觉是正确的,但可以提炼。POMDPs是一类模型,而Q-学习是一种解决方法.你问题的基本区别在于基于模型的方法和无模型的方法。POMDP是基于模型的,尽管部分可观测性允许额外的不确定性。强化学习可以应用在无模型的上下文中,有Q学习.对于非平稳问题,无模型方法将更加灵活。尽管如此,根据问题的复杂性,您可以将非平稳性纳入模型本身,并将其视为MDP。

在这个问题的答案中,对这些非平稳模型的权衡进行了非常深入的讨论。

最后,POMDP可以看作是专家系统,这是正确的。Mazumdar等人(2017)让建议将马尔可夫决策过程(MDP)作为专家系统处理。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47512110

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档