您如何将2D矩阵表示为输入状态，并让它选择它认为对该状态最好的操作的行的索引？

我正在尝试构建一个RL模型，其中输入是一个NxM矩阵，N是可选动作的数量，M是描述动作的特征。到目前为止，在我所见过的所有RL问题中，状态空间要么是一个向量，然后传递给一个常规的神经网络，要么是一个图像，然后通过卷积神经网络传递进来。但是假设我们有一个环境，其中的目标是学习为固定任务选择最强大的工作者，单个状态表示如下所示： names = ['Bob&

浏览 21提问于2021-02-17得票数 0

1回答

Q-学习具有状态-动作-状态奖励结构和以状态为行，动作为列的q-矩阵。

、、

我在R中建立了一个Q-学习问题，并希望对我的方法的理论正确性有所帮助。对于这个问题的问题结构，环境由10个可能的状态组成。在每种状态下，代理都有11个可能的操作，可以从中选择(无论代理处于何种状态，这些操作都是相同的)。随着时间的推移，它得到的回报越来越少。我已经研究过其他潜在的</

浏览 0提问于2017-07-29得票数 1

1回答

读取矩阵Simulink机器人手臂

、

我正在建立机器人手臂的轨迹，并以矩阵格式计算了自由度的位置，即第一位置是矩阵(x1,y1,z1)的第1行，第二位置是第2行(x2,y2,z2)等等。我试图在Simulink中一次读取一行，并在到达第一个位置时更改为下一行。但是，我不可能用脚本来解决这个问题。有什么建议吗？

浏览 3提问于2014-06-02得票数 0

回答已采纳

5回答

状态机表示

、

我希望将GUI实现为状态机。我认为这样做有好处也有缺点，但这不是这个问题的主题。在阅读了这方面的文章之后，我发现了几种在C++中对状态机建模的方法，我坚持使用了2，但是我不知道哪种方法更适合于GUI建模。用以下方法将状态机表示为状态列表： - `OnEnterState(...);`从StateMachine::OnEvent将

浏览 12提问于2012-12-07得票数 3

回答已采纳

1回答

如何制作一个基于参数生成|0>或|1>的门？

、

我想要做一个单量子位门，它给|0>或|1>参考一个参数。 Python 3.7.3

浏览 0提问于2019-09-07得票数 3

回答已采纳

2回答

numpy.random.choice和random.choice的输入参数有区别吗？

、、

为什么numpy.random.choice和random.choice的工作方式不一样？当我这样做的时候： (1, 2) >>> np.random.choice([(1,2), (3,4)]) File "<stdin>"mtrand/mtrand.c:15450

浏览 0提问于2017-04-28得票数 6

回答已采纳

1回答

Q学习教程困惑

、

我对任何机器学习方法都很陌生，我想我会尝试一下Q-学习。所以我一直在读这篇文章： Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * 0 =R矩阵是静态的。

浏览 0提问于2015-09-03得票数 1

回答已采纳

1回答

具有状态-动作-状态奖励结构和以状态为行、动作为列的Q矩阵的Q学习

、、、、

我已经在R中建立了一个Q学习问题，并希望在我构建问题的方法的理论正确性方面提供一些帮助。 Problem structure对于此问题，环境由10种可能的状态组成。在每个状态下，代理都有11个可供选择的潜在操作(这些操作与代理所处的状态无关)。最大的问题是，在我的Q学习中，我的代理没有学习。随着时间的推移，<e

浏览 61提问于2017-07-29得票数 0

回答已采纳

1回答

基于android的Loop the Loop(栅栏)益智游戏开发

、

它基本上由n×m (n×m)个单元矩阵组成。每个单元格都有边和角(点)。规则很简单。你必须在这些点之间画一条线，以形成一个没有交叉点或分支的单圈。一个单元格的数字表示它周围有多少行。为了开发可视化的n×m矩阵，我考虑使用n×m行的网格布局。每个单元格将保留一个默认不透明度为0的按钮，即它是透明的。当用户单击一条边时，它的

浏览 1提问于2012-10-28得票数 1

回答已采纳

2回答

测量门是如何工作的？

我有一个状态|Q>的n位，并希望测量位数i。是否有一个矩阵可以应用于状态，所以状态Q最终变成了Q'，就像Hadamard或X门一样？或者我应该根据测量结果应用度量矩阵|x><x|，如果是0，那么是x=0，如果是1，则是x=1。

浏览 1提问于2016-03-28得票数 2

1回答

可能的NxN矩阵，T1在每一行和每列，没有对角线？

、、

示例随附的是Lefty算法的演练，该算法计算nxn 0-1矩阵的数目，在每一行和每列中有t矩阵，但在主对角线上没有。用于验证所给方程的算法对所有可能的矩阵进行计数，但不构造它们。它被称为“左”，它相当简单，最好用一个例子来描述。假设我们想要计算6x60-1矩阵的数目，每一行和每列有两个矩阵，但是主对角线上没有

浏览 2提问于2016-01-16得票数 2

1回答

如何定义维度，以便在显示所有值时不忽略FK中的空值？

、、

我使用Modrian对OLAP多维数据集进行建模，并使用Jaspersoft表示它。多维数据集建立在一个包含FKs到维度表的事实表之上。目前，我的事实表拥有维度的可空外键，我个人认为这很有趣(据我所知，这只是造型决定是否使用可空的FKs ( ) )。问题是，当选择所有的状态(在我的设计中，state是维度)时，我只得到具有状态的记录，而不是没有

浏览 4提问于2015-08-19得票数 1

回答已采纳

3回答

计算DFA接受的字符串数的最优算法

、、

这是我遇到的问题DFAs可以用状态图表示。数组A表示从状态编号I到状态Ai的0边缘，对于所有的0≤i≤K-1 数组B表示从状态编号i到状态Bi的1条边，用于所有0≤i≤K

浏览 4提问于2015-10-10得票数 6

回答已采纳

1回答

JSF PrimeFaces inputText JSF

、、

但是它总是传递dataTable的最后一行，而不是包含当前单击的p:inputText__的行的索引。从我之前的问题中可以看出，我正在尝试使用p:inputText作为一个状态的注释者，比如在Facebook或其他。实现包括一个p:dataTable。它的行表示每种状态。，在第二个状态(<em

浏览 2提问于2013-02-20得票数 3

回答已采纳

1回答

利用梯度梯度实现SARSA

、、

本质上，我有一个Q值矩阵，其中每一行对应一个状态，每列对应一个动作。[Q(sn,a1), Q(sn,a2), Q(sn,a3), Q(sn,a4)]我的第一个假设是建立一个两层网络，输入层的输入神经元和有状态</e

浏览 2提问于2015-04-30得票数 1

回答已采纳

1回答

多层感知器是否只能接受输入数据的一维矢量？若然，为甚麽会这样呢？

、、

我正在阅读下面的教程，它使用MNIST手写数字数据库。machinelearningmastery.com/handwritten-digit-recognition-using-convolutional-neural-networks-python-keras/ 28x28大小的图像数据必须被重塑成一个784像素的一维矢量。为什么多层感知器只坚持输入数据的一维矢量？卷积神经网络和递归神经网络不存在接受高维输入形状的问题。

浏览 0提问于2018-08-18得票数 2

1回答

如何构建基于环境状态在环境中选择正确对象的DQN？

、、、

我有一个有4个对象的环境。可以选择所有这些对象，也可以不选择。因此，我的DQN所采取的行动应该类似于- [1,0,1,1],[0,0,0,1],[1,1,0,0]...etc。其中1表示对象被选中，0表示对象未被选中。作为DQN输入的环境状态由每个对象的属性和环境的其他因素组成。DQN将根据它所做的选择获得奖励。我刚开始强化学习，我只构建了DQN

浏览 0提问于2020-05-22得票数 1

回答已采纳

3回答

计算矩阵块

、、、

直观地说，n可以看作是矩阵的“像素大小”。++oo++++oo++++++有块状2。虽然有些条目可以被认为属于较大的块，但2是对所有条目有效的最大块大小。即使任何条目都可以被视为属于某个大小为“滑动”的2块，也不可能使用该大小的相邻块来形成

浏览 0提问于2021-11-08得票数 19

回答已采纳

2回答

马尔可夫决策过程的转移矩阵必须是随机的吗？

、、、、

我正在尝试使用值迭代(通过pymdptoolbox)和NumPy为中指定的马尔可夫决策过程问题找到最优策略。但是pymdptoolbox说我的转换矩阵“不是随机的”。import mdptoolbox trans

浏览 4提问于2017-04-28得票数 1

2回答

关于理解餐桌最佳座位算法的问题

、、

我正在阅读一个问题，并试图解决这个问题。你有一张圆形餐桌，你想让周围的人都坐下来。不幸的是，并不是所有的朋友都是朋友，但你想让每个人都坐到最好的位置，这样尽可能多的人坐在他们认为是朋友而不是敌人的人旁边。你在一个大小为NxN的矩阵中描绘了每个人的友谊和仇恨，用整数表示友谊，用-1表示仇恨，用0表示冷漠。，例

浏览 1提问于2019-02-03得票数 10

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Q-学习具有状态-动作-状态奖励结构和以状态为行，动作为列的q-矩阵。

读取矩阵Simulink机器人手臂

状态机表示

如何制作一个基于参数生成|0>或|1>的门？

numpy.random.choice和random.choice的输入参数有区别吗？

Q学习教程困惑

具有状态-动作-状态奖励结构和以状态为行、动作为列的Q矩阵的Q学习

基于android的Loop the Loop(栅栏)益智游戏开发

测量门是如何工作的？

可能的NxN矩阵，T1在每一行和每列，没有对角线？

如何定义维度，以便在显示所有值时不忽略FK中的空值？

计算DFA接受的字符串数的最优算法

JSF PrimeFaces inputText JSF

利用梯度梯度实现SARSA

多层感知器是否只能接受输入数据的一维矢量？若然，为甚麽会这样呢？

如何构建基于环境状态在环境中选择正确对象的DQN？

计算矩阵块

马尔可夫决策过程的转移矩阵必须是随机的吗？

关于理解餐桌最佳座位算法的问题

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐