马尔可夫决策过程_马尔可夫决策过程的编码问题_马尔可夫决策过程中动作使用限制的建模 - 腾讯云开发者社区

、

我知道，当满足马尔可夫性质时，下一个状态只与当前状态相关。但在马尔可夫决策过程(MDP)中，我们需要选择一个动作并执行它来进行转换。这是否意味着状态转换与所选操作相关，而不仅仅与状态相关？这种情况是否违反了马尔可夫的性质？大多数强化学习都是基于马尔可夫性的，我们认为选择的动作是马尔可夫性的一个

浏览 23提问于2019-05-11得票数 1

2回答

为什么在强化学习中，强盗问题也被称为一步/状态MDP？

、、、、

我们所说的1步/状态MDP(马尔可夫决策过程)是什么意思?

浏览 4提问于2020-02-11得票数 1

回答已采纳

1回答

如何将UNO建模为POMDP

、、

我正在尝试将UNO纸牌游戏建模为部分可观察的马尔可夫决策过程(POMDP)。我做了一点研究，得出的结论是，状态将是纸牌的数量，动作将是玩或从看不见的纸牌中挑选纸牌。我认为，该观察模型将取决于过去的操作和观察(历史)，但为此，我需要放松马尔可夫假设。我想知道放松马尔可夫假设是不是更好的选择？另外，我应该如何预先形成状态和观察model.Thanks。

浏览 36提问于2019-04-25得票数 1

回答已采纳

1回答

MDPs的成形定理

、

这是相关的论文：，它基本上是说，对状态和行为之间的转换具有某种报酬函数的马尔可夫决策过程，与不同的马尔可夫决策过程具有相同的最优策略，其报酬定义为R'(s，a，s') = R(s，a，s') +γ*f(我理解这个证明，但它似乎是一个很小的情况，当R(s，a，s') =0时，代理面对A -> s -> B与A -> r -> t -> B之间的路径，

浏览 2提问于2022-01-20得票数 0

回答已采纳

1回答

MDP和RL之间有什么关系？

、

马尔可夫决策过程与强化学习的关系是什么？我们可以说RL和DP是两种MDP吗？

浏览 0提问于2018-09-27得票数 4

回答已采纳

3回答

马尔可夫决策过程的数据结构

、、

我在Python中实现了简单马尔可夫决策过程的值迭代算法。为了保持特定马尔可夫过程的结构(状态、动作、转换、奖励)并对其进行迭代，我使用了以下数据结构： SA = { 'state A': {' action 1', '

浏览 1提问于2012-12-20得票数 10

1回答

马尔可夫决策过程表示

、、、

我试图用马尔可夫决策过程来建模一个简单的过程。表示if在状态s中的概率，采取行动a并以状态s'结束。

浏览 0提问于2020-02-09得票数 2

回答已采纳

0回答

如何用python实现可列折扣马尔科夫决策过程实例的构造？

、、

最近在学习马尔科夫决策过程，想要找一些离散折扣马尔科夫决策过程，状态集可列，行动集有限，报酬函数有界的实例，尝试过搜论文或者直接搜，找到的好像都不是很理想。请问大家有没有什么好的方法？

浏览 41提问于2023-03-01

5回答

马尔可夫链和隐马尔可夫模型有什么区别？

、、

马尔可夫链模型和隐马尔可夫模型有什么区别？我在维基百科上读过，但不能理解其中的区别。

浏览 8提问于2012-05-25得票数 55

回答已采纳

1回答

在POMDP中，我们所说的“可控行动”是什么意思？

、、、、

在部分可观测的马尔可夫决策过程中，我们所说的可控行为是什么意思？还是在隐马尔可夫状态下没有可控的行为？

浏览 16提问于2017-11-27得票数 2

回答已采纳

1回答

寻找用于操作大规模马尔可夫决策过程(MDP)的库

、、

我有一个问题，我想把它表示为一个大规模的马尔可夫决策过程。我希望有一个可以预测状态转换和奖励的模型，但我想推断价值函数和策略函数。我遇到的大多数马尔可夫决策过程库似乎都是面向非常小规模的问题和精确推理的。如果没有交钥匙解决方案，有没有人有关于如何构建这样一个系统的建议？

浏览 14提问于2021-02-12得票数 1

1回答

如何在Python中建立字符串数据的马尔可夫决策过程模型？

、

我想为这个数据集构建一个马尔可夫决策过程模型，以获得上述结果。如果有人能帮我找到一个适合Python的包，那就太好了。我检查了"hmmlearn“包，用它我可以实现一个隐马尔可夫模型。此外，我不确定是否应该将这些数据转换为数字数据，然后我才能构建马尔可夫模型。提前谢谢你！

浏览 16提问于2020-09-01得票数 0

1回答

马尔可夫决策过程的评价

、

我想使用决策树/状态转换/马尔可夫模型来比较两种类型的干预的成本。对于这些类型的分析，最常被引用的商业软件之一是。在R中有没有包来执行这些分析？这样的分析在R中可行吗？

浏览 1提问于2013-01-21得票数 1

1回答

使用最后一个$N$数据点来训练RL代理是有益的吗？

考虑到强化学习的环境是一个马尔可夫决策过程 (MDP)，那么使用最后的N>1数据点来训练代理而不仅仅是当前的数据点是否有任何有益的情况(或者确实是有意义的)？

浏览 0提问于2019-07-27得票数 2

1回答

为什么在强化学习中需要MDP设置

、、

在许多强化学习( RL )论文中，马尔可夫决策过程(MDP)是强化学习问题的典型问题集。这种设置的真正好处是什么？一些论文使用LSTM作为其策略网络结构，这显然违反了MDP假设，并且更有意义。

浏览 3提问于2017-04-04得票数 0

1回答

我是强化学习和深度学习的初学者，我想为DQN代理(在Keras中)构建一个神经网络，该代理接收一个长度等于3的向量，并输出另一个长度等于10的向量。示例：或者：输出必须是一个包含10个元素的向量，其中一个元素等于1，所有其他元素的值都等于0。就像输入向量一样，它也可以是全零的，但它不能有多个值为1的元素。[0, 0, 1, 0, 0, 0, 0, 0, 0, 0][0, 0, 0, 0, 0, 0, 0, 0, 0, 0] 如果输入向量中包含

浏览 6提问于2020-11-18得票数 0

2回答