腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3051)
视频
沙龙
1
回答
马尔
可
夫
决策
过程
的状态转换是否与动作有关?
、
我知道,当满足
马尔
可
夫
性质时,下一个状态只与当前状态相关。但在
马尔
可
夫
决策
过程
(MDP)中,我们需要选择一个动作并执行它来进行转换。这是否意味着状态转换与所选操作相关,而不仅仅与状态相关?这种情况是否违反了
马尔
可
夫
的性质?大多数强化学习都是基于
马尔
可
夫
性的,我们认为选择的动作是
马尔
可
夫
性的一个
浏览 23
提问于2019-05-11
得票数 1
2
回答
为什么在强化学习中,强盗问题也被称为一步/状态MDP?
、
、
、
、
我们所说的1步/状态MDP(
马尔
可
夫
决策
过程
)是什么意思?
浏览 4
提问于2020-02-11
得票数 1
回答已采纳
1
回答
如何将UNO建模为POMDP
、
、
我正在尝试将UNO纸牌游戏建模为部分可观察的
马尔
可
夫
决策
过程
(POMDP)。我做了一点研究,得出的结论是,状态将是纸牌的数量,动作将是玩或从看不见的纸牌中挑选纸牌。我认为,该观察模型将取决于过去的操作和观察(历史),但为此,我需要放松
马尔
可
夫
假设。我想知道放松
马尔
可
夫
假设是不是更好的选择?另外,我应该如何预先形成状态和观察model.Thanks。
浏览 36
提问于2019-04-25
得票数 1
回答已采纳
1
回答
MDPs的成形定理
、
这是相关的论文:,它基本上是说,对状态和行为之间的转换具有某种报酬函数的
马尔
可
夫
决策
过程
,与不同的
马尔
可
夫
决策
过程
具有相同的最优策略,其报酬定义为R'(s,a,s') = R(s,a,s') +γ*f(我理解这个证明,但它似乎是一个很小的情况,当R(s,a,s') =0时,代理面对A -> s -> B与A -> r -> t -> B之间的路径,
浏览 2
提问于2022-01-20
得票数 0
回答已采纳
1
回答
MDP和RL之间有什么关系?
、
马尔
可
夫
决策
过程
与强化学习的关系是什么? 我们可以说RL和DP是两种MDP吗?
浏览 0
提问于2018-09-27
得票数 4
回答已采纳
3
回答
马尔
可
夫
决策
过程
的数据结构
、
、
我在Python中实现了简单
马尔
可
夫
决策
过程
的值迭代算法。为了保持特定
马尔
可
夫
过程
的结构(状态、动作、转换、奖励)并对其进行迭代,我使用了以下数据结构: SA = { 'state A': {' action 1', '
浏览 1
提问于2012-12-20
得票数 10
1
回答
马尔
可
夫
决策
过程
表示
、
、
、
我试图用
马尔
可
夫
决策
过程
来建模一个简单的
过程
。 表示if在状态s中的概率,采取行动a并以状态s'结束。
浏览 0
提问于2020-02-09
得票数 2
回答已采纳
0
回答
如何用python实现
可
列折扣
马尔
科
夫
决策
过程
实例的构造?
、
、
最近在学习
马尔
科
夫
决策
过程
,想要找一些离散折扣
马尔
科
夫
决策
过程
,状态集
可
列,行动集有限,报酬函数有界的实例,尝试过搜论文或者直接搜,找到的好像都不是很理想。请问大家有没有什么好的方法?
浏览 41
提问于2023-03-01
5
回答
马尔
可
夫
链和隐
马尔
可
夫
模型有什么区别?
、
、
马尔
可
夫
链模型和隐
马尔
可
夫
模型有什么区别?我在维基百科上读过,但不能理解其中的区别。
浏览 8
提问于2012-05-25
得票数 55
回答已采纳
1
回答
在POMDP中,我们所说的“可控行动”是什么意思?
、
、
、
、
在部分可观测的
马尔
可
夫
决策
过程
中,我们所说的可控行为是什么意思?还是在隐
马尔
可
夫
状态下没有可控的行为?
浏览 16
提问于2017-11-27
得票数 2
回答已采纳
1
回答
寻找用于操作大规模
马尔
可
夫
决策
过程
(MDP)的库
、
、
我有一个问题,我想把它表示为一个大规模的
马尔
可
夫
决策
过程
。我希望有一个可以预测状态转换和奖励的模型,但我想推断价值函数和策略函数。我遇到的大多数
马尔
可
夫
决策
过程
库似乎都是面向非常小规模的问题和精确推理的。 如果没有交钥匙解决方案,有没有人有关于如何构建这样一个系统的建议?
浏览 14
提问于2021-02-12
得票数 1
1
回答
如何在Python中建立字符串数据的
马尔
可
夫
决策
过程
模型?
、
我想为这个数据集构建一个
马尔
可
夫
决策
过程
模型,以获得上述结果。如果有人能帮我找到一个适合Python的包,那就太好了。我检查了"hmmlearn“包,用它我可以实现一个隐
马尔
可
夫
模型。此外,我不确定是否应该将这些数据转换为数字数据,然后我才能构建
马尔
可
夫
模型。 提前谢谢你!
浏览 16
提问于2020-09-01
得票数 0
1
回答
马尔
可
夫
决策
过程
的评价
、
我想使用
决策
树/状态转换/
马尔
可
夫
模型来比较两种类型的干预的成本。对于这些类型的分析,最常被引用的商业软件之一是。 在R中有没有包来执行这些分析?这样的分析在R中可行吗?
浏览 1
提问于2013-01-21
得票数 1
1
回答
使用最后一个$N$数据点来训练RL代理是有益的吗?
考虑到强化学习的环境是一个
马尔
可
夫
决策
过程
(MDP),那么使用最后的N>1数据点来训练代理而不仅仅是当前的数据点是否有任何有益的情况(或者确实是有意义的)?
浏览 0
提问于2019-07-27
得票数 2
1
回答
为什么在强化学习中需要MDP设置
、
、
在许多强化学习( RL )论文中,
马尔
可
夫
决策
过程
(MDP)是强化学习问题的典型问题集。这种设置的真正好处是什么?一些论文使用LSTM作为其策略网络结构,这显然违反了MDP假设,并且更有意义。
浏览 3
提问于2017-04-04
得票数 0
1
回答
具有向量输入和向量输出的DQN代理
、
、
、
、
我是强化学习和深度学习的初学者,我想为DQN代理(在Keras中)构建一个神经网络,该代理接收一个长度等于3的向量,并输出另一个长度等于10的向量。示例:或者:输出必须是一个包含10个元素的向量,其中一个元素等于1,所有其他元素的值都等于0。就像输入向量一样,它也可以是全零的,但它不能有多个值为1的元素。[0, 0, 1, 0, 0, 0, 0, 0, 0, 0][0, 0, 0, 0, 0, 0, 0, 0, 0, 0] 如果输入向量中包含
浏览 6
提问于2020-11-18
得票数 0
2
回答
人工神经网络与
马尔
可
夫
过程
、
、
我读了一些关于ANN和
马尔
可
夫
过程
的书。有人能帮我理解
马尔
可
夫
过程
与人工神经网络和遗传算法的确切位置吗?或者简单地说,
马尔
可
夫
过程
在这种情况下可能扮演什么角色。 非常感谢
浏览 0
提问于2012-08-13
得票数 2
回答已采纳
2
回答
马尔
可
夫
决策
过程
的编码问题
、
我正在尝试编写
马尔
可
夫
决策
过程
(MDP),但我遇到了一些问题。你能检查一下我的代码,看看为什么它不工作吗? 我试着用一些小数据来做,它起作用了,给了我必要的结果,我觉得这是正确的。
浏览 40
提问于2019-06-24
得票数 0
1
回答
什么是“顺序推荐系统”?
我必须对Shaini等人的论文“推荐系统中的
马尔
可
夫
决策
过程
”做一个介绍。但是他们忘记了对什么是顺序推荐系统做一个简单的定义。基本上,你的想法是根据用户过去行为的有序顺序进行推荐。
浏览 3
提问于2017-01-19
得票数 0
2
回答
为什么要将
马尔
可
夫
性质引入强化学习?
、
、
作为深度强化学习的初学者,我很困惑为什么我们应该在强化学习中使用
马尔
可
夫
过程
,以及它给强化学习带来了什么好处。另外,
马尔
可
夫
过程
要求在“已知”条件下,“现在”与“未来”无关。这是否违反了
马尔
可
夫
过程
的假设?
浏览 4
提问于2020-12-23
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
吴恩达ML课程16_马尔可夫决策过程
自学习AI智能体第一部分:马尔可夫决策过程
机器学习实战之隐马尔可夫模型
自学习 AI 智能体第一部分:马尔科夫决策过程
终极入门 马尔可夫网络——概率图模型
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券