在Q学习中，n维向量状态向量是如何表示的？_我们能否将向量转换为numpy中的矩阵，并且向量中的元素在m*n维矩阵中重复_cpp:如何使向量在类中的访问是线程安全的？ - 腾讯云开发者社区

、

使用以下代码： import gym import numpy as np import time """ SARSA on policy learning python implementation. This is a python implementation of the SARSA algorithm in the Sutton and Barto's book on RL. It's called SARSA because - (state, action, reward, state, action). The only differ

浏览 46提问于2020-04-15得票数 1

回答已采纳

1回答

如何在强化学习中形成深层Q网络的训练范例？

、、、

试着从一些博客和文本中学到强化学习的基础知识。请原谅，如果这个问题太基本，而且我理解的不同的地方有点混乱，但即使在查阅了一些参考资料之后，我也无法真正了解用神经网络进行深度Q学习是如何工作的。我这样理解Bellman方程 V^\pi(s)= R(s,\pi(s)) + \gamma \sum_{s'} P(s'|s,\pi(s)) V^\pi(s') 以及Q表的更新规则。 Q_{n+1}(s_t, a_t)=Q_n(s_t, a_t)+\alpha(r+\gamma\max_{a\in\mathcal{A}}Q(s_{t+1}, a)-Q_n(s_t, a_t)

浏览 0提问于2022-04-19得票数 2

回答已采纳

1回答

Matlab:帮助需要初始化矩阵

、、

我试图为下列一维AR模型实现Kalman滤波的基本方程： x(t) = a_1x(t-1) + a_2x(t-2) + w(t) y(t) = Cx(t) + v(t); KF状态空间模型： x(t+1) = Ax(t) + w(t) y(t) = Cx(t) + v(t) w(t) = N(0,Q) v(t) = N(0,R) 哪里 % A - state transition matrix % C - observation (output) matrix % Q - state noise covariance % R - observation noise covaria

浏览 2提问于2015-03-05得票数 0

回答已采纳

1回答

如何在非常大的州中使用DeepQLearning？

、

我想使用的DeepQLearning.jl包。为了做到这一点，我们必须做一些类似的事情 using DeepQLearning using POMDPs using Flux using POMDPModels using POMDPSimulators using POMDPPolicies # load MDP model from POMDPModels or define your own! mdp = SimpleGridWorld(); # Define the Q network (see Flux.jl documentation) # the gridworld stat

浏览 12提问于2020-05-28得票数 1

回答已采纳

1回答

Q表的创建和动态操作空间的更新

我正在尝试实现一个Q学习算法来优化能量。它是一个有限的MDP，状态表示为整数的6维向量。状态向量的每个索引中的离散值的数目从24到90不等。动作空间因州而异，在某些州可达300种可能的动作，而在某些州则低于15种可能的动作。如果我能做一些假设(只是为了测试模型)，我可以将状态降到大约400，动作减少到200。如何为这样的环境构造Q表？我不知道如何在Python中处理这个问题，如何防止包含许多不可能的状态/操作组合的表，或者阻止代理试图进行这些不必要的操作。

浏览 0提问于2019-07-16得票数 1

回答已采纳

5回答

变压器模型中自我注意的计算复杂性

、、、、

最近，我阅读了Google的论文，描述了自我关注层如何完全取代传统的基于RNN的序列编码层进行机器翻译。在本文的表1中，作者比较了不同序列编码层的计算复杂性，以及当序列长度n小于向量表示d的维数时，自关注层快于RNN层的状态。然而，如果我对计算的理解是正确的话，自我关注层的复杂度似乎要比声称的要低。让X成为自我关注层的输入。然后，X将具有形状(n, d)，因为每个维度d都有n字向量(对应行)。计算自我关注的输出需要以下步骤(为了简单起见，请考虑单头自我注意)：线性转换X的行以计算查询Q、键K和值V矩阵，每个矩阵都具有(n, d)形状。这是通过将X与形状(d, d)的3个学习矩阵相乘来实

浏览 8提问于2021-01-13得票数 30

1回答

Tensorflow 3阶张量降维

、

我正在尝试建立一个在论文中进行研究的CLDNN。在卷积层之后，这些特征经过一个模糊层.当特征离开conv层时，尺寸是[?, N, M]。N表示窗口的数量，我认为网络需要减少维数M，所以在暗红色层之后的特征尺寸是[?,N,Q]，其中Q < M。我有两个问题。我如何在TensorFlow中做到这一点？我试着用重量 W= tf.Variable( tf.truncated_normal(M，Q，stddev=0.1) ) 我认为tf.matmul(x,W)的乘法会产生[?, N, Q]，但[?, N, M]和[M, Q]不是乘法的有效维数。我想保持N不变，减少M的维数。对于tf

浏览 0提问于2017-01-13得票数 2

回答已采纳

1回答

理解曲线全局逼近算法

、、、、

问题描述我试图理解并实现曲线全局近似，如下所示：要实现该算法，必须计算基函数系数，如下所述：我很难把我的头绕在一些细节上。，，首先，变量命名有一些问题。具体来说，我被这一事实绊倒了作为函数参数以及输入和。现在我假设，首先我决定要找到多少个纽结向量作为我的近似。假设我想要10，那么我的参数是：我想这就是输入参数在系数计算算法中？是的原因绊倒我是因为这个句子：让u处于节点跨度中中频输入参数是节点向量的元素之一。，然后就不需要休息了。所以我假设实际上是这些元素之一( )，先前定义如下：这个假设正确吗？最重要的问题。我试图让我

浏览 1提问于2019-10-25得票数 0

回答已采纳

1回答

nn.Embedding模块是如何直观地与一般的嵌入思想相关联的？

、、

所以，我很难理解nn.Embedding。具体来说，我无法将我所理解的作为一个概念的嵌入和这个特定的实现之间的点联系起来。我对嵌入的理解是，它是一些较大维数据点的较小维表示。因此，它将N-d中的数据映射到M-d潜在/嵌入空间，例如M < N。据我所知，这种映射是通过学习过程实现的，就像在自动编码器中一样。编码器学习最优的嵌入，以便解码器能够重建原始输入。所以我的问题是，这与nn.Embedding模块有什么关系：一种简单的查找表，用于存储固定字典和大小的嵌入。该模块通常用于存储单词嵌入并使用索引检索它们。模块的输入是一个索引列表，输出是相应的单词嵌入。这一层“学习”了一个更大

浏览 4提问于2020-12-06得票数 3

回答已采纳

1回答

如何更新角点中的权重以进行强化学习？

、、、

我正在一个强化学习程序中工作，我使用这篇文章作为。我使用python和keras(theano)来创建神经网络，我为这个程序使用的伪代码是 Do a feedforward pass for the current state s to get predicted Q-values for all actions. Do a feedforward pass for the next state s’ and calculate maximum overall network outputs max a’ Q(s’, a’). Set Q-value target for action t

浏览 1提问于2016-10-10得票数 10

1回答

如果每一次，所有可能的状态都会发生变化，那么Q-学习如何“学习”任何东西？

、

我找到了一个非常简单的例子来解释Q学习的这资源。把它变成一个二维问题，一个矩形而不是一条线，它仍然很简单。唯一的区别是，现在有两个可能的行动(上下)。我的问题是:如果长方形的长度和高度是随机的，以及宝物的起始位置和位置，那么机器人如何将所获得的知识应用到新的问题上？对于具有动态状态的问题，有一个进化的Q学习版本吗？

浏览 0提问于2019-05-04得票数 2

回答已采纳

1回答

深度强化学习的大动作空间

、

我知道在正常的深度强化学习(DRL)场景中，我们学习了一个深层神经网络来将当前状态映射到Q值。Q值的数目(神经网络输出的#)与可能的动作数相同，因此我们可以根据相关的Q值选择动作。然而，在本文"基于组合动作空间的深度强化学习预测流行Reddit线程“中，作者使用状态和动作作为输入。网络只输出一个Q值(见下图)。s_t是time的状态，t和a_t^i是time t的i^{\text{th}}操作(您可以忽略这一点，但每个操作都是向量c_t^1到c_t^3的组合)。Q_t只是Q at time t for action i。我想知道为什么只学到一个Q值？如果是这样的话，我们如何确定下一步

浏览 0提问于2019-04-16得票数 6

1回答

协方差矩阵usign分解的特征值

、、、

给定维数X的维数D x N，利用QR分解计算C = np.dot(X, X.T)/N的特征值。依据如下：我们期望C的特征值是np.diag(r.T,r)，使用以下方法 q, r=np.linalg.qr(np.dot(X.T, V)) lambdas2=np.diag(np.dot(r.T, r)) / N 但是，我使用下面的代码在lambdas2中使用的值与lambda1中的值不同。 from sklearn.decomposition import PCA pca = PCA() pca.fit(X) lambdas1=pca.explained_variance_ 完整的例子

浏览 0提问于2019-03-12得票数 1

回答已采纳

1回答

$\mathrm{LLL}$能给我们一个解决$\mathrm{SIS}$问题的提示吗？

、

我知道\mathrm{LLL}算法可以在多项式时间内找到一个短的，而不一定是最短的基。我的问题是:如果我们从\textbf{A}构造一个格，然后在这个格上运行\mathrm{LLL}，它是否有助于找到解决\mathrm{SIS}问题的解或线索(特别是对于小维矩阵)？ \mathbb{Z}^{n}_{q} = n维向量模q (简单地说，q是素数和n = m) \textbf{Goal}：查找非平凡的短向量z \in \mathbb{Z}^m，这样：\begin{pmatrix}\\ \dots \text{A} \dots \\ \\\end{pmatrix} \times \begin{p

浏览 0提问于2016-12-27得票数 1

1回答

深度Q-物理量的学习:Q-值分布不像预期的那样

、、、

设置我试图学习一个特定的物理量(亮度)在一个3D场景与深度Q-学习。简单地说一下，我的经纪人在现场拍摄光线:奖励是击中点的辐照度。这意味着只有当光源被击中时才能得到奖励--只有1%的次数。这导致了一个非常稀疏的奖励函数。我的状态是场景中三维空间坐标的一个元组，我的动作是代理用来散射光线的可能的离散方向。Q值表示基于该特定操作(/direction)的这个物理量. 问题我预计Q值在前10个动作中会更高，然后略有下降.这将反映我的系统的物理特性。当培训开始时，实际上是这样的： 📷 在一些事件之后，一个动作的Q值开始飙升，如下图所示。这并不反映环境的物理性质，环境的辐射应该分布在所有的行动

浏览 0提问于2019-07-29得票数 0

2回答

我怎样才能学到奖励功能？

、

我目前正在进行一个课程项目，并试图为类似于othello的游戏开发人工智能。我正在研究许多不同的技术和算法来确定最优移动，比如Negascout和MTD(f)。然而，它们都需要一个良好的评价功能。我提出了一组可能的指示符{A_0...A_n}用于函数 G(state) = p_0*A_0 + p_1*A_1 + ... +p_n*A_n 我想为p_0到p_n找到好的价值一种建议是使用机器学习来生成函数的参数，但在阅读过程中，我发现像Q学习这样的算法都要求我已经有了一个奖励函数。此外，在阅读Td(lambda)时，我注意到它甚至不需要手动编码指示符。它将使用什么样的奖励功能来学习？我的

浏览 1提问于2013-09-12得票数 0

回答已采纳

1回答

Verilog 4位波纹加法器，由全加法器组成。

、

我模拟了一个4位波纹加法器，该加法器由4个完全加法器组成.在这里，我在试着了解Cout发生了什么。Cout代表进位输出。我无法解释E和F是如何在Cout中得到的。我是ripple_adder.v module full_adder( A, B, CIN, Q, COUT ); input A, B, CIN; output Q, COUT; assign Q = A ^ B ^ CIN; assign COUT = (A & B) | (B & CIN) | (CIN & A); endmodule module adder_ripple( a, b, q ); i

浏览 2提问于2022-06-10得票数 1

1回答

对nn.MultiheadAttention的输入？

、、、

我有需要相互影响的n-vectors，并输出同维d的n向量。我相信这就是torch.nn.MultiheadAttention所做的。但前向函数查询、键和值作为输入。根据博客，我需要为每个q、k和v初始化形状(d x d)的随机权重矩阵，并将每个向量与这些权重矩阵相乘，得到3个(n x d)矩阵。现在，q、k和v是torch.nn.MultiheadAttention所期望的，还是我弄错了？

浏览 1提问于2021-01-09得票数 5

回答已采纳

1回答

理解openAI 5 (1024单元LSTM强化学习)模型

、、、、

最近我遇到了openAI 5，我很想知道他们的模型是如何建立的，并理解它。我在中读到，它“包含一个带有1024单元LSTM的单层”。然后，我找到了包含架构方案的 pdf。我的问题从这一切我不明白几件事：拥有一个1024单元的LSTM层意味着什么？这是否意味着我们有一个LSTM单元的1024个时间步骤，还是意味着我们有1024个单元。你能给我看一下这张图吗？尤其是我很难想象1024个细胞在一层。(我试着看了几个这样的问题，比如、或，但它们没有多大帮助)。如何在这种模型上进行强化学习？我习惯于在Q表中使用RL，并在培训期间更新它们。这是否意味着他们的损失函数就是回报呢？

浏览 1提问于2020-11-02得票数 2

回答已采纳

1回答

具有近似意义的政策预测函数的选择

、

我目前正在阅读萨顿关于强化学习的介绍。在进入第10章(基于近似的政策预测)之后，我现在想知道如何选择函数q的形式，其中最优权重w将被近似。我指的是Sutton下面伪代码的第一行:如何选择一个好的可微函数？有什么标准的策略来选择吗？

浏览 6提问于2017-07-25得票数 4

回答已采纳

2回答

为什么“维度”在机器学习世界中意味着几个不同的东西？

、、、、

我注意到AI社区将各种张量称为512-d，意思是512维张量，其中“维度”一词似乎意味着单个数据点的表示中有512个不同的浮点值。例如，在512-d字嵌入中，表示用于表示一个英文单词的浮点数的512个长度向量，例如。但它不是512个不同的维度，它只是一维向量？为什么dimension一词的使用方式与往常不同？当我们使用术语conv1d或conv2d，它们是一维和二维上的卷积时，一个维度被用在数学/科学中的典型用法中，但是在词嵌入上下文中，一维向量被认为是512个d向量，还是我遗漏了什么？为什么过度使用术语dimension？在机器学习中，什么上下文决定了dimension在机器学习中的意

浏览 3提问于2020-06-15得票数 3

回答已采纳

2回答

确定三维点是否在二维圆内

、、

我想确定点P(x，y，z)是否在由其中心C (cx，cy，cz)定义的三维空间中的二维圆内，半径R，并与平面正常圆位于N上。我知道，在三维空间中的二维圆上的点P是由以下定义的： P= R*cos(t)U _+ R_sin(t)*( N x U )+C 其中，U是从圆的中心到圆上任意点的单位向量。但给定一个点Q，我如何知道Q是在圆内还是在圆内？要选择的合适参数t是什么？我应该比较点Q的哪个坐标，看看它们是否在圆圈内？谢谢。

浏览 1提问于2010-04-07得票数 2

回答已采纳

1回答

神经网络的网格世界表示

、、

我试图找到一个更好的描述二维网格世界状态的Q-学习算法，该算法利用神经网络实现Q-函数。在本教程中，将网格表示为整数的三维数组(0或1)。第一维度和第二维度表示一个对象在网格世界中的位置。第三维空间编码它是哪个对象。因此，对于包含4个对象的4x4网格，您可以使用一个包含64个元素的三维数组(4x4x4)来表示状态。这意味着互斥网络将在输入层中有64个节点，因此它可以接受网格世界的状态作为输入。我想减少神经网络中节点的数量，这样训练就不会花费那么长的时间。那么，你能把网格世界表示成二维的双数数组吗？我试图将一个4x4网格世界表示为一个二维双重数组，并使用不同的值来表示不同的对象。例如，我

浏览 4提问于2016-04-25得票数 3

回答已采纳

1回答

深度Q-学习修正

、、、

@编辑：我试图创建一个代理来玩俄罗斯方块的游戏，使用一个卷积的nnet，它以板状态+当前段作为输入。据我所读，深Q学习不是很好，我刚刚证实了这一点。 @end编辑假设代理正在学习玩游戏的策略，其中每个游戏步骤都可以表示为 s，a，r，s'，完成表示状态，行动，奖励，下一个州，游戏结束在深度Q-学习算法中，代理处于状态，并采取一些行动a(遵循epsilon-贪婪策略)，观察奖励r并到达下一个状态。代理人的行为如下： # returns an action index get_action(state, epsilon) if random() <

浏览 0提问于2018-10-04得票数 0

回答已采纳

1回答

帮助我理解如何构造字即向量表示。

、

让我们假设我有一大串单词。我想把这个列表转化为维数$N$的向量空间，这样每个单词都是这个向量空间中的一个向量。但我不知道该怎么做。一些问题：名单够了吗？对于列表中的每个元素，我还需要$x$例句吗？计算机如何从列表/语料库中推断出向量空间的维数？有没有办法知道向量空间的维数是否与英语中的某物相对应？

浏览 0提问于2018-02-19得票数 1

回答已采纳

1回答

softmax对向量是如何工作的？

、、、

在跳频图中，我们预测上下文词。这是应用softmax函数之前的输出层，它是一个单词数V，其中V是字典大小。但是每个单词都表示为一个向量。所以我们在输出层有V矢量。现在，我们要将softmax应用到这些向量中，得到维数V的向量，其中每个分量代表一个输入词出现的概率。但是，我们如何将softmax函数应用于向量呢？根据定义，软件极大函数只输入一个向量，但每个V向量都是选择的维数N。 📷

浏览 0提问于2023-04-26得票数 0

1回答

如何从二维数组列中更改单个元素(整数)

、、

，所以我需要将元素(整数)从列中更改为最接近该列平均值的元素。例如，：我们有这个二维数组array3 1 4 7 2 5 8 3 6 9 因此，从第一列开始，我需要更改/替换2 ((1+2+3)/3=2)，因为它最接近列的平均值对于第二列，我需要更改/替换5 ((4+5+6)/3=5) 第三批8 所以在最后的版本中我会得到 1 4 7 3 6 9 我“移除”元素，只需缩短数组的长度并将数字推到每一个插槽，下面是对一维数组的处理方法。 int search(char A[], int B[], int n, char tp, int dd) //Search for number {

浏览 0提问于2018-11-18得票数 1

回答已采纳

1回答

使用tensorflow实现SARSA

、、

目前，我正在尝试学习强化学习的概念。因此，我尝试使用tensorflow为cart pole示例实现SARSA算法。我将我的算法与对Q值函数使用线性逼近函数的算法进行了比较，发现我的算法非常相似。不幸的是，我的实现似乎是错误的或低效的，因为学习成功相当有限。有没有人能告诉我我是不是做错了什么？我的实现代码是： import numpy as np import matplotlib.pylab as plt import random import gym #define a neural network which returns two action dependent q-valu

浏览 15提问于2020-12-09得票数 0

1回答

进行PCA前后数据的维数

、、、

我正在尝试使用Python和scikit-学习。从培训数据中删除标签后，我将CSV中的每一行添加到如下列表中： for row in csv: train_data.append(np.array(np.int64(row))) 我对测试数据也是这样。我使用PCA对这些数据进行预处理，以便进行降维(以及特征提取？)： def preprocess(train_data, test_data, pca_components=100): # convert to matrix train_data = np.mat(train_data) # reduce b

浏览 3提问于2013-11-15得票数 6

2回答

理解OpenGL矩阵

、

我开始学习3D渲染，我已经取得了很好的进展。我学到了很多关于矩阵和可以在它们上执行的一般操作的知识。有一件事我还没有完全理解，那就是OpenGL对矩阵的使用。我经常看到这个(和类似的东西)： x y z n ------- 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 所以我最好的理解是，它是一个标准化的(无震级)4维，列-主矩阵.另外，这个矩阵特别被称为“恒等矩阵”。一些问题： “第n”维度是什么？如何以及何时应用这些方法？我最大的困惑是OpenGL如何使用这类数据。

浏览 2提问于2010-03-17得票数 21

回答已采纳

4回答

多维数组内存存储概述

、、

最近，我开始学习c++中的指针和引用(不仅仅是它们的常用用法，还有各种各样的方法，我不想在不久的将来遇到问题)。在我看来，一维静态分配数组类似于int* const指针。我的问题是，当我使用指针动态分配时，指针本身具有第一个元素以外的其他内存地址，这在一维数组中不是这种情况。这是一个例子 int a[5]; cout<<&a<<" "<<&a[0]<<"\n"; int* t=new int[10]; cout<<&t<<" "<<&am

浏览 0提问于2016-04-07得票数 0

1回答

Sutton和Barto的矩阵表示法

、、

在皮卡上。206在Barto和Sutton的强化学习中，关于标量积的结果有一种奇怪的说法： 📷 在我的解释中，A是二维向量的标量乘积的期望:哪个应该是标量，对吗？那么他们是如何得到dxd矩阵的呢？它是标量矩阵(与重复系数对角线，即这个标量积)的缩写吗？

浏览 0提问于2020-09-17得票数 1

回答已采纳

1回答

光伏DBOW (doc2vec)是如何工作的？

、

官方doc2vec论文“句子和文件的分布式表述”对PV的解释如下：另一种方法是忽略输入中的上下文词，而是强制模型预测输出中段落中随机抽取的单词。实际上，这意味着在随机梯度下降的每一次迭代中，我们采样一个文本窗口，然后从文本窗口中抽取一个随机单词，并在给定段落向量的情况下形成一个分类任务。根据本文的说法，单词向量不被存储，PV的工作原理类似于word2vec中的跳过图。 Skip-gram在word2vec 2vec参数学习中有解释.在跳格模型中，将单词向量映射到隐藏层。在培训期间，将更新执行此映射的矩阵。在PV中，隐藏层的维数应该是一个段落向量的维数。当我想用段落向量乘以样本中的单词向量时

浏览 0提问于2016-03-15得票数 6

1回答

平坦化如何使LWE中向量矩阵的系数变小？

在错误学习中的同态加密:概念上更简单，渐近-更快，基于属性，Gentry et.al定义扁平如下；设\vec{a},\vec{b}是\mathbb{Z}_q上某些维数k的向量。设\ell = \lfloor \log_2q \rfloor +1和N = k \cdot \ell将\operatorname{BitDecomp}(\vec{a})定义为N-dimentional向量= (a_{1,0},\ldots,a_{1,\ell-1} \ldots,a_{k,0},\ldots,a_{k,\ell-1})，其中a_{i,j}是a_i's二进制表示中的j-th位，位排序最不重要，

浏览 0提问于2020-02-06得票数 3

回答已采纳

2回答

文档或文本聚类采用EM算法进行GMM，怎么办？

、、、

我正在尝试创建一个文档集群项目(用Java)。最多可以有100万个文档，我想要建立一个没有监督的集群。为此，我尝试用高斯混合模型实现EM算法。但是，我不知道如何制作文档向量。我正在考虑这样的问题，首先，我将计算文档中每个单词的TF/国防军(在删除停止词并完成词干之后)。然后我会对每个向量进行规范化。在这个阶段，出现了一个问题，我应该如何用一个点来表示一个向量？有可能吗？我已经从这个()视频中学习了EM算法，其中一维点被用于GMM，并用于EM中。有谁能解释如何在一维点上转换向量来实现GMM的EM？如果我的方法是错误的，你能用简单的话解释一下怎么做吗？很抱歉我的问题太长了。谢谢你的帮忙

浏览 5提问于2014-06-18得票数 1

回答已采纳

1回答

Q-学习执行情况

、

我试图实现Q-学习，在R(奖励)是随机时间因变量的环境中，它们是在时间间隔deltaT之后实时到达的。S(标量)状态也在时间间隔deltaT之后到达。agent的任务是在得到(S(n_deltaT)，R(n_deltaT))后给出最优的动作。我的问题是，我对RL非常陌生，我不知道该如何实施这种学习，大多数描述Q-学习algo的论文都是用“科学英语”写的，这对我没有帮助。 OnTimer()在固定间隔后执行： double a = 0.95; double g = 0.95; double old_state = 0; action new_action = null; action old

浏览 1提问于2015-04-09得票数 2

1回答

在显示VAE的潜在空间时，我们会看到什么？

、、

我试图把我的头绕在VAE的周围，并且很难理解当人们绘制潜在空间的散点图时所看到的是什么。我想我理解瓶颈概念；我们从N输入维到H隐维到Z维高斯和Z均值，以及Z方差值。例如，这里 (它基于官方的PyTorch VAE实例)、N=784, H=400和Z=20。当人们制作二维散点图时，他们实际上画的是什么？在上面的例子中，瓶颈层是20维的，这意味着有40个特性(包括\mu和\sigma)。人们会在这上面做PCA或tSNE之类的事情吗？即使Z=2仍然有四个特性，所以我不明白显示集群的散点图是如何生成的，比如在MNIST中。

浏览 0提问于2019-04-09得票数 2

回答已采纳

1回答

stereoRectify中的Q矩阵

、

我读过“学习opencv”，我知道使用Q矩阵，我们可以连接图像坐标和三维坐标。但我不太确定q矩阵中的f是什么意思？在这本书中，'f‘在我的程序中是焦点length.But，我发现f=700.Did我的程序错了吗？谢谢你提前帮忙。

浏览 3提问于2016-03-28得票数 0

回答已采纳

1回答

用交换函数交换向量和数组中两行的复杂性

、、、、

在二维向量和二维数组中交换两行的复杂度是多少，我在这两种情况下都测试了时间复杂度，似乎在向量交换中几乎是O(1)，但是在数组中工作慢，那么真正的复杂性是什么，为什么不同呢？在数组中(非常慢)： int arr[N][N]; // input the array elements while (q--) { // number of queires int x, y; scanf("%d %d", &x, &y); swap(arr[x], arr[y]); } 在向量中，上面的代码相同，但我没有使用int arr[N][N]，而是使用了

浏览 1提问于2016-12-03得票数 1

回答已采纳

1回答

选择局部原点作为三维给定三点的质心

、、

给出了三维非共线P、Q、R的三点，需要一种通用的方法来生成像局部坐标系原点的x'、y'、z'单元向量。 x'和y'向量应该在P、Q和R定义的平面上。我搞不懂的是：在计算了质心C之后，我可以选择x'作为normalize(vec(PQ) + vec(PC))，但是无法知道如何生成y'和z'。该方法应该是通用的。我知道这是可能的，没有轮换等，但如何？我要用Java编写一个程序，所以我希望一步一步地回答。

浏览 0提问于2014-07-09得票数 0

回答已采纳

2回答

支持向量机作为一种基于实例的学习方式？

、

我读了很多关于支持向量机的文章，在我看到的所有书籍和在线文章中，支持向量机被归类为使用超平面的线性分类器。如果数据不能线性可分，则可以将数据映射到高维，以启用线性边界。现在，我看到了华盛顿大学著名机器学习专家佩德罗·多明戈斯教授的一些文章和幻灯片。他特别将支持向量机归类为一种基于实例的机器学习算法，类似于kNN.有人能跟我解释一下吗？例如，在 in Communications of the ACM (2012年10月)中，他特别将支持向量机置于“实例”-based表示之下，而大多数机器学习人员会将其置于“超平面”下，并进行logistic回归。此外，在他的中，他给出了这样的推

浏览 4提问于2014-10-27得票数 4

5回答

什么是3D矢量?它与3D点有何不同？

、、、

在3D游戏数学上下文中，3D矢量是否与3D点元组(x，y，z)不同？如果它们不同，那么如何计算给定一个三维点的向量？

浏览 11提问于2010-10-12得票数 12

回答已采纳

2回答

在进行文本聚类时，为什么在K-Means之前使用LSA

、、、、

我从Scikit learn了解如何使用K-Means：学习文本聚类在该示例中，可选地使用LSA (使用SVD)来执行降维。为什么这是有用的？维度(特征)的数量已经可以使用"max_features“参数在TF-IDF向量化器中进行控制。我知道LSA (和LDA)也是主题建模技术。聚类的不同之处在于，文档属于多个主题，但只属于一个聚类。我不明白为什么要在K-Means聚类的上下文中使用LSA。示例代码： from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import

浏览 16提问于2017-02-22得票数 5

回答已采纳

2回答

函数近似:平铺编码与高度离散的状态空间有何不同？

、、、

我从连续状态空间的离散化过渡到函数近似。我的动作和状态空间(3D)都是连续的。我的问题主要是由于混叠错误和长期训练后几乎没有收敛。另外，我不知道如何选择合适的步长进行离散化。阅读Sutton & Barto帮助我理解了平铺编码的力量，也就是有状态空间描述的多个副词互相重叠。给定一个连续的查询/状态，它由N个基函数描述，每个基函数对应于它所属的纵横加成的单个块/平方。 1)与高度离散的状态空间相比，性能有何不同？ 2)有谁能给我举一个用python编码的例子吗？我同时学习了太多的东西，而且变得非常困惑！(Q学习，离散进退两难，分块编码，函数逼近和处理问题本身) 对于RL中的连续问题，似

浏览 3提问于2016-05-04得票数 8

回答已采纳

1回答

作为Q值函数逼近器，如何提高前馈网络的性能？

、、、

我试图在n*n网格世界域中导航代理，使用Q-学习+前馈神经网络作为Q-函数逼近器。基本上，代理应该找到最佳/最短的方式来达到某一终端目标位置(+10奖励)。特工采取的每一步都会得到-1的奖励。在网格世界中，代理也应该避免某些位置(-10奖励，终端状态也是如此)。到目前为止，我实现了一个Q学习算法，它将所有的Q值保存在一个Q表中，并且代理执行得很好。在接下来的步骤中，我想用神经网络代替Q表，在agent的每一步都进行在线训练。我尝试了一个具有一个隐藏层和四个输出的前馈神经网络，表示网格世界(北、南、东、西)中可能的动作的Q值。作为输入，我使用了一个nxn零矩阵，在代理当前的位置上有一个"

浏览 3提问于2016-06-20得票数 0

回答已采纳

1回答

理解DQN算法

、、、

我在学习深层Q学习算法。你可以在图片中看到它：DQN 关于深度Q学习算法，我有几个问题。它们对第14行意味着什么：If D_i = 0, set Y_i = ...，他们希望我采取一个动作a‘，它使函数q最大化，这意味着我必须插入状态中的每个动作a。如果我有a1和a2，我必须插入a1，然后插入a2来测试，这给了我最大的权利？但是我的网络的输入是状态。那么，我如何知道哪一种行动能使我的网络最大化呢？我要去看最后一层吗。在哪里我有Q(s，a1)和Q(s，a2)来看哪一个有更高的价值并采取行动？就像在这个建筑里 📷

浏览 0提问于2021-08-12得票数 0

回答已采纳

1回答

我想通过输入在2d数组中打印no，但是它会给出错误的输出。

我使用的是向量，我希望通过使用代码中的精确方法来打印与输入相同的输出，尝试使用二维向量。 //错误的原因是我在代码中标记的while j循环部分。 #include <bits/stdc++.h> using namespace std; // vector<int> dynamicArray(int *n,int *q) // { // } int main() { int n, size, a; cin >> n >> size; vector<vector<int> > q; //

浏览 4提问于2022-02-25得票数 -1

1回答

N维两轴对齐盒之间的最小距离

、

问题：如何有效地计算n维中两个轴对齐框之间的最小距离？框格式：，A和B是由它们的最小和最大点，A_min，A_max，B_min，B_max给出的，每一个都是一个n维向量。也就是说，方框可以用数学形式写成下列笛卡尔间隔积： A= A_min(1)，A_max(1) x A_min(2)，A_max(2) xX A_min(n)，A_max(n) B= B_min(1)，B_max(1) x B_min(2)，B_max(2) xX B_min(n)，B_max(n) 图片：这里是一张用2D演示这个想法的图片：注：注:我问这个问题，并自己回答，因为这个问题(一般n维形式)似乎在堆栈溢

浏览 1提问于2020-12-02得票数 2

回答已采纳

1回答

基于词向量的文档分类

、、、、

当我对用自然语言写的文档进行分类和聚类时，我提出了一个问题. 由于word2vec和glove等在分布式空间中将单词向量化，我想知道是否有任何方法推荐或常用使用word向量的文档矢量化。。例如, Document1：“如果你追两只兔子，你会把它们都弄丢的。” 可以矢量化为， 0.1425，0.2718，0.8187，…，0.1011 我知道还有一个叫做doc2vec的文档，这个文档有n个维度，就像word2vec一样。但这是1xn维数，我一直在测试，以找出使用doc2vec的局限性。因此，我想知道其他人是如何将单词向量应用于具有稳定大小的应用程序的。只要叠加m个字的向量，

浏览 1提问于2018-05-08得票数 2

回答已采纳

1回答

我讨厌简单的强化学习模型不能学习。我不知道为什么

、、

我是tensorflow和强化学习编程的初学者。我用强化学习算法做了一个简单的程序。更准确地说，我重新编写了Sudharsan Ravichandiran的“Hands On-On-Reinforcement-Learning-With-Python”一书中的示例程序。我举了下一个例子：https://github.com/sudharsan13296/Hands-On-Reinforcement-Learning-With-Python/blob/master/08.%20Atari%20Games%20with%20DQN/8.8%20Building%20an%20Agent%20t

浏览 18提问于2021-02-11得票数 0