如何加速C++中的矩阵乘法？ - 腾讯云开发者社区

、、

我在我的代码中做了大量的矩阵向量乘法。我发现我天真的实现胜过了MKL10中的cblas_dgemm。我自己的猜测可能是dgemm做了alpha* A *B + beta *C，而我只做了A *B。但朴素的实现要好得多(大约3倍的加速)。有没有想过为什么会这样呢？以下是矩阵向量乘法的实现： void mat_vec_mul(double *a, d

浏览 1提问于2011-04-09得票数 0

1回答

是否有一个数学库可以利用Visual C++ 2012中的新特性？

、、、、

在VS 2012 C++编译器中有许多用于并行编程的新特性：有这样的C++库吗？矢量化在默认情况下是应用的，因此我们跳过这一部分。库是不可移植的，所以我们也跳过了。

浏览 2提问于2012-12-12得票数 0

1回答

用本征乘积X*X.transpose()的最快方法？

、、

我想要多个自转置矩阵。关于X8,100的矩阵的大小。现在它看起来是“MatrixXf h= X*X.transpose()” ( c)有关该等矩

浏览 4提问于2014-07-31得票数 1

回答已采纳

2回答

iOS - GPU加速矩阵转置、乘法与特征分解引理

、、、、

我正在开发一个库，它需要在iOS平台上使用向量和矩阵。我决定研究OpenGLES，因为我计划做的矩阵和矢量操作(主要是转置、矩阵乘法和特征位置)肯定会从GPU加速中受益。问题是我对OpenGLES不太熟悉，老实说可能不是最好的选择。如果我要利用OpenGLES，我是否需要手动编写完成矩阵转换、乘法和幂等运算的算法？或者有另一个苹果或第三方框架可以帮助我完成这些任务。然而，主要的分割

浏览 0提问于2014-01-29得票数 3

回答已采纳

1回答

利用MATLAB的GPU功能计算和(a.exp(b.c)，1)的有效方法

、、、、

我有GPU加速MATLAB代码，花费了80%-90%的计算时间。使用Matlab2018b和NVIDIA P100 GPU，我运行了以下脚本，旨在找到n的最佳大小。它表明，与使用双精度的CPU (双套接字英特尔XeonE5-2650v2)相比，我实现了17x的加速。我是否可以通过做一些更高级的事情来改进这一点，比如使用GPU编码器，甚至使用共享内存或纹理内存，如下面所述？(越小越好)、底部:相对于CPU的加

浏览 0提问于2020-02-05得票数 4

回答已采纳

1回答

快速矩阵乘法

我有一个面试测试，我必须用给定的矩阵乘法算法实现快速矩阵乘法。·PC实施应为SIMD优化做好准备。·设计数据处理模块的rational接口。·编写不会降低效率的可移植ANSIC代码。不要使用汇编程序。·考虑操作的数量和操作的复杂性。关心函数调用开销、循环开销、内存访问时间和缓存性能我应该在像raspberry pi这样的</

浏览 8提问于2016-09-17得票数 0

1回答

Python中稀疏矩阵的矩阵乘法

、、、

我想将一个稀疏矩阵A与一个元素为0、-1或1的矩阵B相乘。为了降低矩阵乘法的复杂度，我可以忽略那些为0的项，或者如果该项为1或subs，则继续添加没有乘法的列。如果它是-1。关于这一点的讨论如下：有没有人知道他们是否针对这样的矩阵优化了矩阵<

浏览 1提问于2011-09-20得票数 4

回答已采纳

1回答

如何在英特尔高清图形4000中运行c ++代码？

、、、

我最近需要加速C ++中的卷积运算，我想知道在某种程度上，如果不使用OpenGL或OpenCL，是否可以使用Intel HD Graphics 4000的一些功能来加速卷积或矩阵乘法等操作。

浏览 0提问于2018-04-26得票数 4

回答已采纳

2回答

如何优化和加速c++中矩阵的乘法？

、

这是矩阵乘法的优化实现，这个例程执行矩阵乘法操作。C := C+ A * B (其中A、B和C是以列主要格式存储的n对n矩阵)，A和B保持它们的输入值。} }基于上述函数/方法，如何进一步加快矩阵的<e

浏览 0提问于2019-03-19得票数 1

1回答

有没有一种程序可以利用矩阵的赫米性来使矩阵-向量乘法更快？

、

例如，设B是2X1实向量，A是厄米特2X2矩阵，即A=a1，a2; a3，a4，其中a1和a4是实数，a3和a2是复共轭。有没有一种方法/过程(最好是在python中)利用A的赫米性来加速矩阵向量乘法的计算： (当然，我想将这样的过程应用于高维的矩阵-向量乘法。这个简单的例子只是为了澄清概念。)

浏览 22提问于2019-05-08得票数 0

1回答

能用纹理存储器加速矩阵乘法吗？

、、、

是否有可能用纹理存储器来加速像矩阵乘法这样简单的东西？除了贴图之外，空间局部性是一个很好的属性，但是使用纹理内存所带来的开销会超过它吗？我似乎找不到任何使用纹理存储器的矩阵乘法的实现。

浏览 1提问于2015-04-29得票数 1

回答已采纳

1回答

矩阵乘法-库达值得吗？

、、、

我有一个问题，涉及许多矩阵乘法(经典和克朗克乘积)。我读到GPU适合这个任务，因为速度是我的主要目标，所以我考虑在c++中使用Cuda。不过，我得先学库达。因此，在我开始放弃我的时间之前，我想我应该先问更聪明的人。库达能加速我的计算吗？矩阵一般在20x50左右相当小。有时涉及到一个三维，所以它变成了一个20x50x10矩阵。我只能在一步时间内(10-100)乘以几个矩阵.但我需要进行数百万次的迭代(

浏览 4提问于2017-04-14得票数 1

回答已采纳

3回答

表示和乘以稀疏布尔矩阵的最快方法是什么？

、、、、

所以，我使用的布尔矩阵的维数通常是几十到几百，它们通常是相当稀疏的(在大多数行和列中只有2-4个非零)，并且我的运行时主要由它们的乘法控制。在这种情况下，哪种数据结构最适合加速乘法？目前，我将每个矩阵按行存储在一个连续的位集(64位长的数组)中，并使用基本的标准算法将它们相乘，只是通过在字中定位下一组位<em

浏览 0提问于2010-09-05得票数 9

1回答

你能在操作符重载函数中创建和销毁pthread吗

、、

我正在尝试重载*运算符，以用于矩阵乘法。它必须是使用pthread的多线程。我以前从来没有做过多线程，我真的很挣扎。如果可能的话，我想在函数中创建和销毁pthread(这样pthread出现的唯一位置就是在函数中)。下面是我的Matrix类：{ int numRows_; std::vector<double>Matrix Transpose();

浏览 1提问于2021-04-24得票数 0

3回答

如何将XMMATRIX正确地乘以标量？

、、、、

使用DirectXMath及其在C++和DirectX11中的XMMATRIX结构，如何将该矩阵结构乘以单个浮动标量？我找不到标量乘法！为何没有这功能呢？没有用例吗？我错过了什么吗？如何实现标量乘法？

浏览 0提问于2014-03-08得票数 1

2回答

为什么用浮点矩阵乘法执行浮点数比用int乘整数更快？

、、、、

有两个int矩阵A和B，有超过1000行和10K列，我通常需要将它们转换为浮动矩阵以获得加速比(4x或更多)。我想知道为什么会这样？我意识到在浮点矩阵乘法中存在大量的优化和矢量化，如AVX等。但是，对于整数有这样的AVX2指令(如果我没有弄错的话)。而且，对于整数，不能使用SSE和AVX吗？为什么在矩阵代数库(如Numpy或Eigen )下面没有一个启发式的方法来捕捉这一点，并像浮点一样更快地执行整数矩阵<

浏览 11提问于2017-07-28得票数 26

回答已采纳

1回答

浮点数字与定点数字: Intel I5 CPU上的速度

、、、、

我有一个C/C++程序，它涉及密集的32位浮点矩阵的数学计算，如加法、减法、乘法、除法等。我能否通过将32位浮点数字转换为16位定点数字来加速我的程序？我能得到多少速度增益？目前，我正在研究英特尔的I5处理器。我用Openblas做矩阵计算。我应该如何重新实现Openblas函数(如cblas_dgemm )来执行定点计算？我知道SSE(简单SIMD扩展)一次操作4x32=8x16=128位数据，即4 3

浏览 14提问于2016-09-24得票数 5

1回答

OpenMP优化？

、、

我不明白为什么这个功能的性能这么差。我有一个核心的2双机器，我知道它只创建了2个trhead，所以这不是一个太多线程的问题。我希望结果更接近我的线程结果。这些是我的编译标志(故意不做任何优化标志) gcc -fopenmp -lpthread -std=c99 matrixMul.c -o matrixMulSequential matrix(*p)[i][j] += (*a)[i][k] * (*b)[k][j];

浏览 0提问于2011-07-21得票数 1

1回答

稀疏矩阵与稠密矩阵乘积C++势流

、、

我想用C++ Tensorflow稀疏矩阵稠密向量(SPMv)乘法:y= Ax请注意，我已经看过以下文章：。然而，我仍然想知道以下几点：我应该考虑哪些因素

浏览 12提问于2020-07-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

矩阵向量乘法vs. dgemm

是否有一个数学库可以利用Visual C++ 2012中的新特性？

用本征乘积X*X.transpose()的最快方法？

iOS - GPU加速矩阵转置、乘法与特征分解引理

利用MATLAB的GPU功能计算和(a.exp(b.c)，1)的有效方法

快速矩阵乘法

Python中稀疏矩阵的矩阵乘法

如何在英特尔高清图形4000中运行c ++代码？

如何优化和加速c++中矩阵的乘法？

有没有一种程序可以利用矩阵的赫米性来使矩阵-向量乘法更快？

能用纹理存储器加速矩阵乘法吗？

矩阵乘法-库达值得吗？

表示和乘以稀疏布尔矩阵的最快方法是什么？

你能在操作符重载函数中创建和销毁pthread吗

如何将XMMATRIX正确地乘以标量？

为什么用浮点矩阵乘法执行浮点数比用int乘整数更快？

浮点数字与定点数字: Intel I5 CPU上的速度

OpenMP优化？

稀疏矩阵与稠密矩阵乘积C++势流

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐