使用带向量化的numpy.einsum实现块矩阵乘法_如何在pytorch中实现单个矩阵行与列的矢量化乘法 - 腾讯云开发者社区

python、image、numpy

我想要执行图像的旋转。开始的形状和正常的形状是(429,1024，3)，rot的形状是(3，3)跟随代码正确运行，但需要时间来完成。for d in range(3): arr[i,j,d] = rot[d][0] * x + rot[d][1] * y + rot[d][2] * z 我尝试向量化代码，但有条件使用numpy.einsum，因为每个像素的向量需要相乘。0的下标太多”。我应该对代码的<

浏览 31提问于2020-10-30得票数 1

2回答

numpy.einsum大大加快了计算速度--但是numpy.einsum_path没有显示加速，我遗漏了什么？

python、arrays、numpy、performance、numpy-einsum

我有一个奇怪的例子，我可以看到numpy.einsum加速计算，但在einsum_path中看不到同样的情况。我想数量化/解释一下这个可能的加速，但我遗漏了一些东西.简而言之，我有一个矩阵乘法，这里只需要最后乘积的对角线。，numpy.einsum要快得多。，这种速度是有可能的，因为numpy.einsum能够减少计算，最终将通过取对角线来删除--但是，如果我正确地阅读它，numpy.ei

浏览 11提问于2022-07-04得票数 3

回答已采纳

1回答

我怎么能矩阵-乘两个PyTorch量子化张量？

pytorch、matrix-multiplication、quantization

我是张量量化的新手，我试着做一些简单的事情，比如x = torch.rand(10, 3)在CPU上运行PyTorch量化张量。torch.quantize_per_tensor(y, scale, zero_point, dtype) ..and作为误差 RuntimeError:无法使用'QuantizedCPUTensorId‘后端的参数运

浏览 1提问于2020-02-20得票数 6

3回答

稀疏酉矩阵的最佳C++矩阵库

c++、matrix、sparse-matrix、lapack、umfpack

我正在寻找一个好的(在最好的情况下，积极维护) C++矩阵库。因此，它应该是模板，因为我想使用一个复杂的理性主义作为数字类型。我所处理的矩阵主要是稀疏的和单一的。请你建议图书馆，并给出一个小小的解释为什么要使用它们，因为我知道如何找到它们，但我不能真正决定什么是适合我自己，因为我错过了与他们的经验。编辑：我处理的主要操作是矩阵乘法</e

浏览 17提问于2010-02-08得票数 9

回答已采纳

1回答

向量二次展开

arrays、matlab、vectorization

我在n列中有一个带向量的矩阵X。在我的例子中，这是一系列的时间向量(第1列是t1，第2列是t2 .)。我想返回一个新的矩阵Y，这样对于每一个X(:，i)目前，我通过计算外部乘积X(:，i) * X(:，i)‘来实现这一点，然后使用triu()返回上三角矩阵，最后用非零()得到结果的

浏览 4提问于2014-06-10得票数 2

回答已采纳

1回答

Keras采用哪种卷积算法？

keras、convolution

事实证明，这个函数所需的时间几乎比Keras Conv2D多5倍。(我的卷积函数用了MNIST数据集的1期，大约花费了10-15分钟。而Keras只需3-4分钟就能完成)class Convolutional2D(Layer): def __init__(self, kernel_size, feature_maps

浏览 5提问于2019-11-20得票数 0

2回答

iOS - GPU加速矩阵转置、乘法与特征分解引理

ios、matrix、opengl-es、eigenvector、accelerate-framework

我正在开发一个库，它需要在iOS平台上使用向量和矩阵。我决定研究OpenGLES，因为我计划做的矩阵和矢量操作(主要是转置、矩阵乘法和特征位置)肯定会从GPU加速中受益。问题是我对OpenGLES不太熟悉，老实说可能不是最好的选择。如果我要利用OpenGLES，我是否需要手动编写完成矩阵转换、乘法和幂等运算的算法？或者有另一个苹果或第三方框架可以帮助我完成这些任务。然而，主要的分割问题是，我希望这些

浏览 0提问于2014-01-29得票数 3

回答已采纳

1回答

用SIMD和openMP加速矩阵乘法

c、multithreading、performance、parallel-processing、openmp

我试图加快矩阵乘法的速度，这样它的性能就比简单的实现要好得多。我的目标是把速度提高到150倍。到目前为止，我在实现过程中尝试了以下几点：使用

浏览 1提问于2020-11-17得票数 2

回答已采纳

1回答

在NumPy中是否有一种向量化的方法来执行类似于矩阵乘法的操作？

python、numpy、matrix

我有一个矩阵A (形状为m)和另一个较小的矩阵 B (形状为k )，我想要计算A和B行之间的欧氏距离，生成一个矩阵C，形状为m，我已经有了一个函数dist(row1, row2)。使用循环是很简单的，但是在NumPy中是否有一种矢量化的方法来做到这一点呢？我相信我想要的可以被转换成一个自定义的矩阵乘法运算(如果我转置B)，而似乎朝着相同的方向前

浏览 2提问于2020-03-20得票数 0

回答已采纳

2回答

以矩阵为参数的Simulink传递fcn

matlab、matrix、simulink

假设我想建立这个方程(电机，6个阶段)：其中所有变量都是矩阵，因此：Is =ia1 ib1 ic1 ia2 ib2 ic2‘(列向量)在我看来，Vs是输入向量，也是输出向量，所以我需要重新排列方程。我已经看到，这是不可能在Simulink给转移Fcn块的矩阵，至少不是一个多输入多输出系统。是否有办法在Simulink上实现</e

浏览 2提问于2014-06-18得票数 0

回答已采纳

1回答

在iOS中特征不向矢量化矩阵乘法？

ios、eigen、neon

我正在使用特征库在iPad 2上做一些计算。皮层-A9)。似乎有些操作是使用霓虹灯指令矢量化的，而其他操作则不是。我在同一个项目和同一个文件中使用这些操作，所以编译器选项是相同的。我使用的所有矩阵都有动态大

浏览 2提问于2013-06-10得票数 0

1回答

有效地从向量中提取任意切片

matrix、rust

这在某种程度上与我的帖子有关。我试图在Rust中实现矩阵乘法，我认为为了有效地实现这一点，我需要能够从矩阵中获得列数据。这是困难的，因为我存储我的矩阵的行主要格式。我使用的是一个展开点产品实现，它在上面的和我以前的中都有详细的描述。我希望能够从一个矩阵中输入这个方法，从一个矩阵中输入行，从另

浏览 14提问于2015-12-05得票数 2

回答已采纳

1回答

对于稀疏矩阵，Tensorflow使用COO格式而不是CSR有什么明显的原因吗？

tensorflow、sparse-matrix

我试图从Tensorflow内置的稀疏矩阵乘法API中获取性能优势。建议tf.embedding_lookup_sparse是正确的方法。但是，embedding_lookup_sparse的性能似乎在中有些令人失望。虽然它执行较小的矩阵乘法，<1,3196>和<3196,1024>，但稀疏度为0.1的稀疏矩阵不能获得密集矩阵乘法。如果我的

浏览 6提问于2016-06-08得票数 4

回答已采纳

1回答

Matlab中利用dct变换矢量到二进制字符串的方法

matlab、math、vector、dct

我正在使用dct变换频域中的向量(向量可以是大矩阵的8x8窗口中的一行)，我希望后置词能够在类似jpeg压缩的过程中量化这个向量，因为dct返回浮动，这无助于任何进一步的操作。

浏览 1提问于2014-05-08得票数 0

回答已采纳

1回答

用CUDA计算大型矩阵产品

c++、matrix、cuda

我刚刚开始学习一些cuda编程，我感兴趣的是如何处理超过块/线程大小的大型矩阵的计算。例如，我有一个，它展示了如何执行平铺矩阵乘法，但是由于块大小和网格大小太小，它失败了。在上述代码中，如果块大小和网格大小分别设置为1，则只计算最终矩阵的第一个元素。答案很简单:用更大的块和网格大小调用内核，但是当我想要执行一个包含800万行和600万列的</e

浏览 2提问于2015-02-11得票数 0

1回答

在matlab上最小化一百多个变量的函数

matlab、minimization、bigdata

我试图用Matlab的函数fminunc最小化一个大约120个变量的函数(我通过最大似然法估计参数)，但迭代步骤非常慢。我有哪些方法可以加速这一过程？该函数是非线性的，并且包含大量的求和。我正在考虑尽可能多地向量化函数定义，并可能将梯度函数提供给Matlab，但除了这些解决方案之外，我不知道还有什么其他的可能性。

浏览 0提问于2017-01-31得票数 0

1回答

生成量化矩阵

matlab、image-processing、signal-processing

如何生成不同大小和质量的量化式节拍器，在matlab中有这样的函数吗？

浏览 3提问于2010-05-15得票数 3

1回答

在matlab中，如何在不需要for循环的情况下将矩阵提高到幂向量？

matlab、matrix、vector

我有一个2x2矩阵，我想自己乘10次，每次乘法后存储结果。使用for循环可以很容易地做到这一点，但是我想将它矢量化为消除for循环。我的方法是获得我的2x2矩阵a，并将其提升到带有元素1:10的向量b。答案应该是复制类型的2x2x10矩阵。a^b(1)..为了澄清我并不是这样做的，我需要实际的矩阵乘法，并且

浏览 3提问于2016-02-29得票数 4

回答已采纳

2回答

Matlab中的块矩阵内积

matlab、matrix、linear-algebra

我一直在使用以下自定义函数执行向量乘矩阵，其中向量的每个元素在(3xN)x(3)矩阵中乘法一个3x3块： end 类似地，当我想将3x3矩阵集合乘以3x3向量集合时，我使用以下方法 B=zeros(N,3); for

浏览 0提问于2019-02-20得票数 0

回答已采纳

2回答

为什么用浮点矩阵乘法执行浮点数比用int乘整数更快？

c++、numpy、matrix、eigen、avx

有两个int矩阵A和B，有超过1000行和10K列，我通常需要将它们转换为浮动矩阵以获得加速比(4x或更多)。我想知道为什么会这样？我意识到在浮点矩阵乘法中存在大量的优化和矢量化，如AVX等。但是，对于整数有这样的AVX2指令(如果我没有弄错的话)。而且，对于整数，不能使用SSE和AVX吗？为什么在矩阵代数库(如Numpy或Eigen )下面没有一个启发式的方法来捕捉这一点，并像浮点一样更快地执行整数矩阵<

浏览 11提问于2017-07-28得票数 26

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云