腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(112)
视频
沙龙
1
回答
为什么
Q-learning
在未知的环境中工作?
terminology
、
reinforcement-learning
、
q-learning
Q-learning
使用即时奖励矩阵R对环境进行建模。这意味着它使用一个已知的矩阵R进行学习,那么为什么人们说"
Q-learning
可以在未知的环境中工作“?
浏览 0
提问于2016-10-31
得票数 1
1
回答
带Galaga定义状态的Q学习
q-learning
我正在致力于
Q-Learning
的实现,以构建一个玩Galaga的人工智能。我知道
Q-learning
需要状态和动作,并需要表格来确定状态之间的移动。
Q-Learning
online的所有示例和教程似乎都是用于基于网格的游戏,具有易于定义的状态。但Galaga涉及左右移动和向上射击,敌人在整个游戏过程中随机移动。因此,我在定义
Q-Learning
算法中的状态应该是什么时遇到了麻烦。我已经考虑过让飞船的每个潜在位置都是一个状态,或者可能让状态依赖于活着的敌人的数量。如果任何对
q-learning
有更好理解
浏览 1
提问于2018-04-20
得票数 0
3
回答
如何将MinMax树与
Q-Learning
结合使用?
artificial-intelligence
、
reinforcement-learning
、
game-ai
如何将MinMax树与
Q-Learning
结合使用? 我想实现一个
Q-Learning
connect four代理,并听说将MinMax树添加到其中会有所帮助。
浏览 2
提问于2012-01-10
得票数 3
回答已采纳
1
回答
政策外的学习方法比政策上的方法好吗?
reinforcement-learning
、
q-learning
我读过,显示了SARSA和
Q-learning
之间的区别。它说,
Q-learning
将学习沿着悬崖行走的最佳策略,而SARSA将在使用epsilon-greedy策略时学会选择更安全的方法。但是既然
Q-learning
已经告诉我们最优策略,为什么我们不直接遵循这个策略而不是继续探索呢? 另外,这两种学习方法是否有一种比另一种更好的情况?在这种情况下,人们会更喜欢策略算法吗?
浏览 3
提问于2017-03-05
得票数 5
回答已采纳
1
回答
在嵌入式系统上加载经过训练的模型(无库)
machine-learning
、
embedded
、
artificial-intelligence
(类似于
Q-learning
?尽管
Q-learning
不适合我的项目。) 我想要一些建议,提前谢谢。
浏览 8
提问于2019-11-21
得票数 1
回答已采纳
1
回答
具有不同训练算法的多智能体RLIB
reinforcement-learning
、
ray
(例如:一个使用DQN的代理和一个使用
Q-Learning
的代理)?
浏览 1
提问于2020-02-24
得票数 1
3
回答
为什么
Q-Learning
是非策略学习?
reinforcement-learning
、
q-learning
在幻灯片中,
Q-Learning
被认为是非策略学习。我不知道这背后的原因。他还提到,我们有目标和行为政策。
Q-Learning
中行为策略的作用是什么?我对
Q-Learning
算法感到非常困惑。你能帮帮我吗? 幻灯片链接(第36-38页):
浏览 0
提问于2018-12-11
得票数 0
1
回答
Q学习的收敛时间与深度Q学习
deep-learning
、
q-learning
、
dqn
我想知道深度Q学习与Q学习在同一问题上运行时的收敛时间。谁能告诉我他们之间的模式是什么?如果用图表来解释会更好。
浏览 3
提问于2021-04-26
得票数 0
1
回答
如何在使用
Q-Learning
时使用theano计算神经网络的梯度
neural-network
、
theano
、
reinforcement-learning
我正在尝试使用一个标准的全连接神经网络作为
Q-Learning
中动作值的基础。我使用作为参考,特别是这一行:我想使用
Q-Learning
策略控制方法(如中所述
浏览 1
提问于2016-04-02
得票数 0
3
回答
Q-learning
和SARSA与贪婪选择是等价的吗?
reinforcement-learning
、
q-learning
、
sarsa
如果使用贪婪选择策略,也就是说,动作值最高的动作被100%选择,那么SARSA和
Q-learning
是否相同?
浏览 7
提问于2015-09-29
得票数 9
回答已采纳
1
回答
bellman最优方程与Q学习的关系
machine-learning
、
artificial-intelligence
、
reinforcement-learning
、
q-learning
我知道
Q-learning
是无模型的。所以它不需要下一个状态的转移概率。 然而,当s,a给定时,bellman方程的p( s‘r|s,a)是下一状态s’具有奖励r的转移概率。如果它是相同的,
q-learning
如何作为无模型工作? 有没有办法得到一个Q(s,a),而不考虑Q学习的转移概率? 还是我把什么搞糊涂了?
浏览 50
提问于2020-02-02
得票数 3
回答已采纳
2
回答
Q学习(多目标)
machine-learning
、
artificial-intelligence
、
reinforcement-learning
、
reward
、
q-learning
我刚刚开始研究
Q-learning
,并且看到了使用
Q-learning
来解决我的问题的可能性。你能帮我在这种情况下如何使用
Q-learning
吗?考虑到我在20+状态下有16个目标!正如我上面提到的,我知道什么是Q学习,状态和目标是如何工作的,Q_matrix的计算(它是如何学习的)……但问题是,现在我有很多目标,我真的不知道如何将我的问题与
Q-learning
联系起来。
浏览 6
提问于2013-11-15
得票数 2
1
回答
当我使用
Q-learning
时,我可以在我的普通家用计算机上处理多少个状态?
machine-learning
、
reinforcement-learning
、
q-learning
当我想要实现
Q-Learning
这样的强化学习算法时,我可以在我的普通家用计算机上处理多少个状态?1000,100,000,更多?
浏览 32
提问于2020-04-15
得票数 0
回答已采纳
2
回答
如何学习马尔可夫决策过程中的奖励函数
machine-learning
、
reinforcement-learning
、
q-learning
编辑:我可能混淆了
Q-Learning
中的R(s)和中的R(s,s')。问题仍然是相似的。在学习MDP时,更新R(s,s')的最佳方法是什么?
浏览 5
提问于2011-07-18
得票数 2
回答已采纳
1
回答
利用强化学习教机器人在到达终端状态前收集网格世界中的物品
machine-learning
、
reinforcement-learning
、
q-learning
、
gridworld
、
sarsa
我还使用
Q-Learning
和Sarsa实现了它,代理到达了结束状态,并避开了障碍(X状态)。所以这部分运行得很好。 我的问题是,如何让agent在到达结束状态之前收集所有的项目(F状态)?通过使用
Q-Learning
或Sarsa,它避免了障碍,达到了最终状态,但不会收集所有项目。通常会访问一个F状态,并且在代理进入结束状态之后。 谢谢你的帮助!
浏览 17
提问于2019-02-02
得票数 0
回答已采纳
1
回答
倒立摆:基于模型还是无模型?
reinforcement-learning
我目前正在实现
Q-learning
,但我不确定我做得是否正确。但是后来我看到了一个使用
Q-learning
()的实现,这是一个无模型的算法。现在我一无所知..。 感谢所有的回复。
浏览 1
提问于2018-05-02
得票数 1
2
回答
四连排游戏强化学习的最佳算法
java
、
reinforcement-learning
我想构建一个四连排的游戏,它将使用RL算法之一来玩:
Q-Learning
,MinMax等。 考虑到我使用的是Java,什么是最好的。
浏览 1
提问于2012-01-08
得票数 0
回答已采纳
1
回答
探测率递减的ϵ-贪婪策略
machine-learning
、
greedy
、
reinforcement-learning
、
q-learning
我想在
Q-learning
中实现ϵ-greedy策略,动作选择策略。在这里,许多人使用,遵循降低探测率的方程,N=座席的年龄但是我不清楚这个"n“是什么意思?
浏览 4
提问于2017-02-20
得票数 1
回答已采纳
7
回答
如何实现深度强化学习(DQN)?
深度学习
、
编程算法
、
强化学习
DQN(Deep
Q-Learning
)可谓是深度强化学习(Deep Reinforcement Learning,DRL)的开山之作,是将深度学习与强化学习结合起来从而实现从感知(Perception
浏览 3324
提问于2018-10-10
1
回答
Q-学习收敛到最优策略
reinforcement-learning
、
q-learning
我正在使用基于rlglue的框架进行Q学习.我的理解是,随着时间的推移,算法收敛到一个最优策略(这是一个映射,说明在什么状态下要采取什么行动)。当我绘制奖励(或奖励平均超过100集)时,我得到了一个类似于图6.13的图表。Question3:有什么标准方法可以用来比较各种RL算法的结果吗?
浏览 3
提问于2014-04-15
得票数 5
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Q-Learning 基础强化学习算法
走近流行强化学习算法:最优Q-Learning
深度学习第55讲:强化学习简介与Q-Learning实例
深度学习第56讲:强化学习简介与Q-Learning实例
人工智能–Q Learning算法
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券