大型阵列(矩阵)的OpenMP性能优化_优化大型矩阵的列移位(Circshift等)_在React中处理大型矩阵时的性能 - 腾讯云开发者社区

、、、

我是OpenMP的新手，如果这个问题看起来很无聊，我很抱歉。下面是我的顺序代码，它对行中的每个元素执行do_something()并保存到下一行： for (int i = column; i < row * column; i++){ // I put column，并且加速比上

浏览 42提问于2021-10-15得票数 0

回答已采纳

2回答

矩阵乘法并行实现(OpenMP)

、、、

我连续运行了一个矩阵乘法代码，而parallelized.There与并行版本相比并没有明显的改进。}输出:时间/a.outuser 4m58,706s关于串行代码(我把#实用主义.在注释中，其余的代码是相同的

浏览 1提问于2018-03-15得票数 0

回答已采纳

3回答

OpenCL、TBB、OpenMP

、、、

我在OpenMP、TBB和OpenCL中实现了一些普通的循环应用程序。在所有这些应用程序中，当我只在CPU上运行OpeCL而没有在内核中进行特定的优化时，它的性能也比其他应用程序好得多。OpenMP和TBB也提供了很好的性能，但远远不如OpenCL，这是什么原因呢?因为这两个都是CPU专用框架，应该至少提供与OpenMP/TBB相同的性能。我的第二个担忧

浏览 2提问于2011-08-20得票数 0

1回答

我试图使用OpenMP来加速我的神经网络计算程序。由于我使用的是Visual 2017，因此需要在属性表中启用OpenMP支持。但是，在我这样做之后，代码的某些部分会减慢大约5倍，尽管我的没有在代码中包含任何#pragma omp。奇怪的是，虽然这个函数在程序中被多次调用，但是只有一些函数受到影响。我已经包含了头文件<omp.h>。我不确定这是否是由于艾根图书馆，这是到处使用。我试着按照EIGEN_DONT_PARALLELIZE中的建议

浏览 1提问于2018-11-14得票数 0

回答已采纳

2回答

使用openmp时出现奇怪的速度减慢

、、

我试图通过并行化矩阵乘法来提高一个相当复杂的迭代算法的性能，每次迭代都会调用矩阵乘法。该算法需要500次迭代和大约10秒。但是在并行化矩阵乘法之后，它会减慢到13秒。然而，当我单独测试相同维数的矩阵乘法时，速度有所提高。(我说的是100x100矩阵。)因此，在主算法中使用openmp 500次调用任何并行化都会以某种方式减慢速度。这种行为在我看来非常奇怪，谁知道问题出在哪里？主算法由Win32版本

浏览 6提问于2012-07-13得票数 3

1回答

OpenMP和内存带宽限制

、、、

编辑:我的第一个代码样本是错误的。修复了一个更简单的。void DenseMatrix::identity() assert(height == width); #pragma o

浏览 4提问于2013-03-17得票数 0

1回答

PyTorch方法中使用了哪些类型的优化？

、、、

我使用torch.mm或torch.dot等方法，使用PyTorch实现了一系列密集的矩阵运算。我想知道PyTorch是否使用了多线程或其他优化机制来加速这个过程。我没有使用GPU。

浏览 20提问于2019-01-26得票数 1

回答已采纳

1回答

特征库:特征值计算性能，gcc对visual studio 2015

、、、、

我试图使用使用以下代码的特征库来提高特征值和特征向量计算的性能：EigenSolver<MatrixXd> es(eigMat,ShouldComputeEigenVectors); 最初，我使用了一个带有tdm 4.8的更早版本的Eigen，并在O2级别上使用优化编译了代码。1000×1000矩阵<em

浏览 1提问于2017-06-01得票数 0

回答已采纳

1回答

用SIMD和openMP加速矩阵乘法

、、、、

我试图加快矩阵乘法的速度，这样它的性能就比简单的实现要好得多。我的目标是把速度提高到150倍。到目前为止，我在实现过程中尝试了以下几点：使用openMP对循环进行并行化。在步骤1和步骤2之后，我的mat

浏览 1提问于2020-11-17得票数 2

回答已采纳

1回答

由于LAPACK使用OpenMP程序较慢

、、

我有一个程序，需要找到3x3矩阵的特征值和特征向量，数百万次。我刚刚转向使用LAPACK的zheev (是的，它们是hermitian矩阵)，这个程序在一个特定的情况下运行在1世纪20年代左右。我已经用OpenMP并行了我的算法(就像我们以前做的那样)，突然，我的程序运行了大约9m。我注释掉对zheev的调用，我的程序运行在9。我在网上环顾了一下，发现(据我理解)您可以编译您的BL

浏览 3提问于2012-04-13得票数 1

回答已采纳

2回答

java中的matlab矩阵函数

、

我注意到matlab做一些矩阵函数的速度非常快，例如，即使矩阵很大，将n*n数组的所有元素加5几乎是立即发生的，因为你不必循环遍历每个元素，在java中做同样的事情如果矩阵很大，for循环将永远花费时间我有两个问题，在java中有没有高效的内置类来做矩阵运算，第二，我如何编写代码来更有效地更新一个大矩阵的所有元素。

浏览 0提问于2009-12-10得票数 5

回答已采纳

2回答

使用OpenMP和块方法加速矩阵乘法:我可以做得更好吗？

、、、

这是我写的代码：void matrix_multi(int c[][TSIZE], int a[][TSIZE], int b[][TSIZE]) intsum+=a[i1][k1]*b[k1][j1]; c[i1][j1]+=sum;我的问题是:通过对三个内部循环进行一些进一步的操作，我可以获得更好的性能吗？

浏览 1提问于2016-05-18得票数 6

4回答

OpenMP开销

、

我已经使用OpenMP和Intel TBB并行化了图像卷积和lu分解。我正在1-8个内核上测试它。但是，当我通过分别使用set_num_threads(1)和task_scheduler_init InitTBB(1)指定一个线程，在OPenMP和TBB中的1核上进行测试时，由于TBB开销，TBB性能与顺序代码相比略有下降，但令人惊讶的是，OpenMP在单核上没有显示任何开销，并且性能与顺序代码完全相同(使用英特尔O3优化级别)。我使用的</e

浏览 0提问于2011-09-05得票数 2

1回答

带返回条件的openmp优化

、、、、

我对OpenMP并行编程很陌生，发现很难优化我的函数，如果列是空的，函数应该返回-1。 3 2 3 3 1 4 91 8然后计算出的norm_matrix

浏览 5提问于2020-12-01得票数 1

回答已采纳

2回答

计算高维向量矩阵间最小欧氏距离的最快方法

、、、、

在没有实现我最初想要的东西之后，我会在这里问我到底想要什么。 } vocIndex=0;} 附件是带有样本矩阵的文件问题是，我在Matlab中有另一段代码，可以在0.05秒内完成同样的事情。在我的</em

浏览 1提问于2012-09-26得票数 6

1回答

Numba python CUDA与cuBLAS在简单操作上的速度差异

、、

我分析了一些代码却找不出性能差异。我试图在两个数组之间做一个简单的元素加法(就地)。，但随后我将其与cuBLAS方法进行了比较：blas.axpy(1.0, X, Y)我

浏览 0提问于2017-06-11得票数 4

回答已采纳

2回答

使用Numpy进行大规模矩阵乘法

、、

我面临着一个问题，我需要在两个大矩阵A [400000 x 70000]和B [70000 x 1000]之间执行矩阵乘法。这两个矩阵是密集的，并且没有我可以利用的特殊结构。读取矩阵需要大约500秒，计算大约需要300秒。在这里使用PyTables是否有助于提高I/O效率？有没有可以帮助提高时间效率的库？[400000 x 70000]，betas的大小为[70000 x 1000]。这里的geno是一个存储在磁盘中<em

浏览 0提问于2018-07-23得票数 2

1回答

为什么艾根不支持OpenMP的系数运算？

、、

和一些测试表明，特征不适用于系数级运算，如cwiseProduct或Array乘法，尽管矩阵矩阵产品可以开发多个核。尽管如此，使用一些优化特征似乎是相当快的，而且即使我试图为特定目的编写自己的矩阵库，我也怀疑即使启用了库的OpenMP，它是否会比特征库更快。，，为什么艾根在系数运算方面不支持OpenMP？这是开发人员的某种错误吗?还是有一些特定的原因来避免对特定的operatio

浏览 5提问于2022-04-04得票数 1

1回答

使用MPI扩展Openmp导致的巨大性能损失

、、、

首先，我是这个董事会的新手，所以如果我做错了什么，请纠正我。现在，我的问题： init_matrices(A,B,C); mm(A,B,C);

浏览 0提问于2014-01-13得票数 0

回答已采纳

1回答

Visual 2010性能分析向导。OpenMP

、

我在“性能向导”下运行我的代码，花费了将近17秒钟。这些代码非常适合多线程，所以我添加了openmp指令。在那之后，我再次运行我的代码，它还需要将近17秒。所以，我想知道性能向导是如何优化代码的？它是分析代码并使其成为多线程的还是简单的执行编译器优化的？那个向导是如何优化代码的？编辑:我通过添加/openmp选项启用了编译器选项。我使

浏览 3提问于2012-05-20得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云