如何设置Q学习的状态空间？

、、

这显然是非常明显和基本的，因为我在上面找不到任何教程，但是我如何为q-learning环境设置状态空间？如果我理解正确的话，每个状态都需要与单个值相关联，对吧？一旦我有了状态空间，我该如何改变状态呢？假设它基于3个变量，V1 V2和V3。Q学习算法只接收这种状态的单个数字表示，对吗？如何使用变量和状态

浏览 33提问于2020-05-09得票数 0

回答已采纳

1回答

AI玩家表现不好吗？为什么？

、、、

我正在尝试实现一个使用Q学习来玩的代理。我用一个电子贪婪的动作选择器来训练它，它的感应器为0.1，学习率为0.6，折扣率为0.8。我跑了大约50K步的比赛，一场比赛都没有赢过。这是令人费解的，因为Q表似乎与我想要的是相当准确的。为什么我会输给随机玩家呢？如果q表没有发生那么大的变化，系统不应该赢吗?一般来说，我需要训练我的代理人多少次迭代？可能

浏览 3提问于2016-05-24得票数 0

回答已采纳

1回答

Q学习中的探索: Epsilon贪婪与探索功能

、

我正在努力了解如何确保我们的代理在开发它所知道的信息之前，对状态空间进行足够的探索。我知道，我们使用贪婪的epsilon方法和一个衰败的epsilon来实现这一点。然而，我遇到了另一个概念，即使用探索函数来确保我们的代理探索状态空间。用Epsilon贪婪的 Q学习sample = R(s,a,s') + \gamma \max_{a&#

浏览 0提问于2021-05-05得票数 3

回答已采纳

1回答

我不得不在Q Learning上做一些工作，讲的是一个不得不在房子里搬家具的人(基本上就是这样)。如果房子足够小，我可以只有一个表示行动/奖励的矩阵，但随着房子变大，这是不够的。我的老师建议我不只使用一个，而是多个，这样我就可以比较它们，等等。你们推荐什么？我听说在这种情况下，人们使用支持向量机，也可以使用神经网络。我不是真的在场内，所以我不能说。我过去有过一些使用神经网络的经验，但SVM似乎更难掌握。有没有其他我应该寻找的方法？我知道肯定有无数这样的东西，

浏览 6提问于2009-10-09得票数 1

回答已采纳

1回答

当并非所有操作都可用时，RL代理有哪些解决方案？

我是在RL环境中工作的，在这个环境中，并非所有的操作都可用。在这种情况下，根据环境所在的状态，代理无法选择某些操作。我可以找到处理这种情况的工作：https://ojs.aaai.org/index.php/AAAI/article/view/5740 在继续并开始实现它之前，我想问您是否有其他解决方案的建议来处理这样的场景任何指针我都会感激的。

浏览 0提问于2021-01-31得票数 0

1回答

如果在强化学习中状态空间是连续的，那么策略是什么？

我最近从强化学习开始。当涉及到连续空间时，我对代理人的政策没有什么疑问。根据我的理解，策略告诉代理执行特定状态的动作。当涉及到迷宫的例子时，这是有意义的，在这个迷宫中，状态空间是有限的。如果状态空间是连续的，那么代理会在状态空间中获得每个可能状态的信息吗？此外，RL代理是否能

浏览 0提问于2019-04-18得票数 1

回答已采纳

1回答

Tensorflow tf.reduce_min如何从某些索引而不是整个张量中获取最小值

、

我正在尝试使用tensorflow学习DQN。在我的操作空间中，每个状态都有有效和无效的操作。我将q_target网络设置为q_next = tf.layers.dense(t1,n_actions, w,b, name='t2')<

浏览 1提问于2020-02-08得票数 1

1回答

关于深层Q学习的几个问题

、、

我读了几本关于深度Q学习的材料，我不确定我是否完全理解它。据我所知，深度Q学习似乎更快地计算Q值，而不是通过使用NN进行回归、计算损失和反向传播错误来更新权重而将它们放在表上。然后，在测试场景中，它接受一个状态，NN将为该状态下的每个操作返回几个q值。然后，选择Q值最高的动作在该状态下执行. 我唯一的问题是权重是如何更新

浏览 3提问于2019-06-26得票数 2

回答已采纳

1回答

使用Q-Learning算法的目的

、、

使用Q-Learning的意义是什么？我使用了一个示例代码，表示2D棋盘上的棋子在此棋盘上移动。在董事会的右端有我们想要达到的目标。在算法完成后，我有一个Q表，其中的值被分配给每个状态-动作交汇点。这一切都是为了让这个Q表看看哪些状态-动作(哪些动作在特定状态下是最好的)对是最有用的？这就是我现在所理解的。我说的对吗？

浏览 1提问于2018-04-10得票数 0

1回答

带Galaga定义状态的Q学习

我正在致力于Q-Learning的实现，以构建一个玩Galaga的人工智能。我知道Q-learning需要状态和动作，并需要表格来确定状态之间的移动。Q-Learning online的所有示例和教程似乎都是用于基于网格的游戏，具有易于定义的状态。但Galaga涉及左右移动和向上射击，敌人在整个游戏过程中随机移动。因此，我在定义Q-Learning算法中的

浏览 1提问于2018-04-20得票数 0

1回答

深度强化学习的大动作空间

、

我知道在正常的深度强化学习(DRL)场景中，我们学习了一个深层神经网络来将当前状态映射到Q值。Q值的数目(神经网络输出的#)与可能的动作数相同，因此我们可以根据相关的Q值选择动作。然而，在本文"基于组合动作空间的深度强化学习预测流行Reddit线程“中，作者使用状态和动作作为输入。网络只输出一个Q值(

浏览 0提问于2019-04-16得票数 6

1回答

关于二维迷宫中Q学习的几个问题

、、、

我刚读到关于Q学习的文章，我不确定我是否正确地理解了这一点。我看到的所有例子都是迷宫老鼠，老鼠必须向奶酪移动，而奶酪不能移动。我只是在想，在鼠标和奶酪都移动的情况下，是否有可能进行Q学习(因此，一个代理在追赶，另一个在逃跑)。如果Q-学习在这种情况下不起作用，我们还有其他算法(贪婪的还是非贪婪的)可以工作吗？此外，是否有正式/学术名称的情况？我想找一些关于这个问题<em

浏览 2提问于2019-12-07得票数 2

1回答

连续状态和动作空间的强化学习

、、、

问题行动者-批评家方法应该有效，但它通常(或总是)应用于离散和低维状态空间

浏览 1提问于2019-01-05得票数 2

回答已采纳

1回答

连续状态和动作空间的强化学习

、、

问题我的目标是应用强化学习来预测在三维环境中已知力下物体的下一个状态(这种方法将被简化为监督学习，离线学习)。深确定性策略梯度适用于连续的操作空间，但在我的例子中，我也有一个连续的状态空间。)应用于离散和低维状态空间。Q学习和深度Q学习不能处理高维状态<e

浏览 0提问于2019-01-05得票数 5

回答已采纳

2回答

基于神经网络的Q-学习

、、、、

我正在尝试实现一个乒乓球游戏的深层Q学习算法。我已经实现了Q学习，使用表作为q-函数。它工作非常好，并学习如何在10分钟内击败天真的人工智能。但我不能用神经网络作为Q函数逼近器。我想知道我是否在正确的轨道上，以下是我所做的事情的总结：我使用一个多层感知器作为Q</e

浏览 4提问于2016-09-26得票数 5

1回答

Q-学习算法会变得过度训练吗？

、、

证明了Q-学习算法收敛于最优策略的Qs是唯一的。那么，得出Q-学习算法不能被过度训练的结论是正确的吗？

浏览 3提问于2016-09-04得票数 1

回答已采纳

2回答

函数近似:平铺编码与高度离散的状态空间有何不同？

、、、

我从连续状态空间的离散化过渡到函数近似。我的动作和状态空间(3D)都是连续的。我的问题主要是由于混叠错误和长期训练后几乎没有收敛。另外，我不知道如何选择合适的步长进行离散化。阅读Sutton & Barto帮助我理解了平铺编码的力量，也就是有状态空间描述的多个副词互相重叠。给定一个连续的查询/状态</e

浏览 3提问于2016-05-04得票数 8

回答已采纳

1回答

带健身房的Q表(使用盒子观察空间)

、、

我正在尝试使用这个观察空间运行Q学习算法：当我尝试访问Q表时，如下所示：我得到了这个错误： IndexError: arrays used

浏览 12提问于2021-04-01得票数 1

1回答

强化学习(Q学习)

我正在阅读一篇关于traffic流优化的论文，使用多Agent Q学习。本文提出了以下方法:在每个交叉口设置一个带有交通灯的强化学习控制器。首先，Q值方程是：第二，状态是:当前交叉口和一个跳跃交叉口的车辆队列长度之和第三，行动空间

浏览 0提问于2018-03-04得票数 1

回答已采纳

1回答

实现近似(特征)Q学习的几个问题

、、、

我刚开始强化学习。我最近学习了近似Q学习，或者说基于特征的Q学习，在这种学习中，您可以通过特性来描述状态以节省空间。我尝试在一个简单的网格游戏中实现这一点。下面是使用的网格：.f.f...f 在这里，一个信号显示了特工的起始位置。现在，在实现时，我设置了两个特性。如果它进入了一个已经被访问过的非火种位置(

浏览 0提问于2019-04-06得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

AI玩家表现不好吗？为什么？

Q学习中的探索: Epsilon贪婪与探索功能

Q-Learning的泛化函数

当并非所有操作都可用时，RL代理有哪些解决方案？

如果在强化学习中状态空间是连续的，那么策略是什么？

Tensorflow tf.reduce_min如何从某些索引而不是整个张量中获取最小值

关于深层Q学习的几个问题

使用Q-Learning算法的目的

带Galaga定义状态的Q学习

深度强化学习的大动作空间

关于二维迷宫中Q学习的几个问题

连续状态和动作空间的强化学习

连续状态和动作空间的强化学习

基于神经网络的Q-学习

Q-学习算法会变得过度训练吗？

函数近似:平铺编码与高度离散的状态空间有何不同？

带健身房的Q表(使用盒子观察空间)

强化学习(Q学习)

实现近似(特征)Q学习的几个问题

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐