q-learning - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

为什么Q-learning在未知的环境中工作？

、、

Q-learning使用即时奖励矩阵R对环境进行建模。这意味着它使用一个已知的矩阵R进行学习，那么为什么人们说"Q-learning可以在未知的环境中工作“？

浏览 0提问于2016-10-31得票数 1

1回答

我正在致力于Q-Learning的实现，以构建一个玩Galaga的人工智能。我知道Q-learning需要状态和动作，并需要表格来确定状态之间的移动。Q-Learning online的所有示例和教程似乎都是用于基于网格的游戏，具有易于定义的状态。但Galaga涉及左右移动和向上射击，敌人在整个游戏过程中随机移动。因此，我在定义Q-Learning算法中的状态应该是什么时遇到了麻烦。我已经考虑过让飞船的每个潜在位置都是一个状态，或者可能让状态依赖于活着的敌人的数量。如果任何对q-learning有更好理解

浏览 1提问于2018-04-20得票数 0

3回答

如何将MinMax树与Q-Learning结合使用？

、、

如何将MinMax树与Q-Learning结合使用？我想实现一个Q-Learning connect four代理，并听说将MinMax树添加到其中会有所帮助。

浏览 2提问于2012-01-10得票数 3

回答已采纳

1回答

政策外的学习方法比政策上的方法好吗？

、

我读过，显示了SARSA和Q-learning之间的区别。它说，Q-learning将学习沿着悬崖行走的最佳策略，而SARSA将在使用epsilon-greedy策略时学会选择更安全的方法。但是既然Q-learning已经告诉我们最优策略，为什么我们不直接遵循这个策略而不是继续探索呢？另外，这两种学习方法是否有一种比另一种更好的情况？在这种情况下，人们会更喜欢策略算法吗？

浏览 3提问于2017-03-05得票数 5

回答已采纳

1回答

在嵌入式系统上加载经过训练的模型(无库)

、、

(类似于Q-learning？尽管Q-learning不适合我的项目。) 我想要一些建议，提前谢谢。

浏览 8提问于2019-11-21得票数 1

回答已采纳

1回答

具有不同训练算法的多智能体RLIB

、

(例如:一个使用DQN的代理和一个使用Q-Learning的代理)？

浏览 1提问于2020-02-24得票数 1

3回答

为什么Q-Learning是非策略学习？

、

在幻灯片中，Q-Learning被认为是非策略学习。我不知道这背后的原因。他还提到，我们有目标和行为政策。Q-Learning中行为策略的作用是什么？我对Q-Learning算法感到非常困惑。你能帮帮我吗？幻灯片链接(第36-38页)：

浏览 0提问于2018-12-11得票数 0

1回答

Q学习的收敛时间与深度Q学习

、、

我想知道深度Q学习与Q学习在同一问题上运行时的收敛时间。谁能告诉我他们之间的模式是什么？如果用图表来解释会更好。

浏览 3提问于2021-04-26得票数 0

1回答

如何在使用Q-Learning时使用theano计算神经网络的梯度

、、

我正在尝试使用一个标准的全连接神经网络作为Q-Learning中动作值的基础。我使用作为参考，特别是这一行：我想使用Q-Learning策略控制方法(如中所述

浏览 1提问于2016-04-02得票数 0

3回答

Q-learning和SARSA与贪婪选择是等价的吗？

、、

如果使用贪婪选择策略，也就是说，动作值最高的动作被100%选择，那么SARSA和Q-learning是否相同？

浏览 7提问于2015-09-29得票数 9

回答已采纳

1回答

bellman最优方程与Q学习的关系

、、、

我知道Q-learning是无模型的。所以它不需要下一个状态的转移概率。然而，当s，a给定时，bellman方程的p( s‘r|s，a)是下一状态s’具有奖励r的转移概率。如果它是相同的，q-learning如何作为无模型工作？有没有办法得到一个Q(s，a)，而不考虑Q学习的转移概率？还是我把什么搞糊涂了？

浏览 50提问于2020-02-02得票数 3

回答已采纳

2回答

Q学习(多目标)

、、、、

我刚刚开始研究Q-learning，并且看到了使用Q-learning来解决我的问题的可能性。你能帮我在这种情况下如何使用Q-learning吗？考虑到我在20+状态下有16个目标！正如我上面提到的，我知道什么是Q学习，状态和目标是如何工作的，Q_matrix的计算(它是如何学习的)……但问题是，现在我有很多目标，我真的不知道如何将我的问题与Q-learning联系起来。

浏览 6提问于2013-11-15得票数 2

1回答

当我使用Q-learning时，我可以在我的普通家用计算机上处理多少个状态？

、、

当我想要实现Q-Learning这样的强化学习算法时，我可以在我的普通家用计算机上处理多少个状态?1000,100,000，更多？

浏览 32提问于2020-04-15得票数 0

回答已采纳

2回答

如何学习马尔可夫决策过程中的奖励函数

、、

编辑:我可能混淆了Q-Learning中的R(s)和中的R(s，s')。问题仍然是相似的。在学习MDP时，更新R(s，s')的最佳方法是什么？

浏览 5提问于2011-07-18得票数 2

回答已采纳

1回答

利用强化学习教机器人在到达终端状态前收集网格世界中的物品

、、、、

我还使用Q-Learning和Sarsa实现了它，代理到达了结束状态，并避开了障碍(X状态)。所以这部分运行得很好。我的问题是，如何让agent在到达结束状态之前收集所有的项目(F状态)？通过使用Q-Learning或Sarsa，它避免了障碍，达到了最终状态，但不会收集所有项目。通常会访问一个F状态，并且在代理进入结束状态之后。谢谢你的帮助!

浏览 17提问于2019-02-02得票数 0

回答已采纳

1回答