通过SSE加速矩阵乘法(C++) - 腾讯云开发者社区

、、、、

我有一个C/C++程序，它涉及密集的32位浮点矩阵的数学计算，如加法、减法、乘法、除法等。我能否通过将32位浮点数字转换为16位定点数字来加速我的程序？我能得到多少速度增益？我用Openblas做矩阵计算。我应该如何重新实现Openblas函数(如cblas_dgemm )来执行定点计算？我知道SSE(简单SIMD扩展)一次操作4x32=8x16=128位数据，即4 32位浮点类型或8 16位定点类型.我猜在从32位浮点转换到16位定点后，我的程序会快两倍。

浏览 14提问于2016-09-24得票数 5

2回答

为什么用浮点矩阵乘法执行浮点数比用int乘整数更快？

、、、、

有两个int矩阵A和B，有超过1000行和10K列，我通常需要将它们转换为浮动矩阵以获得加速比(4x或更多)。为什么在矩阵代数库(如Numpy或Eigen )下面没有一个启发式的方法来捕捉这一点，并像浮点一样更快地执行整数矩阵乘法？关于接受的答案：虽然@sascha的答案非常有用，但@chatz的答案是int

浏览 11提问于2017-07-28得票数 26

回答已采纳

1回答

像`float[10][10]`这样初始化的数组已经内存对齐了吗？

、、

我需要使用SIMD/Intel SSE优化我的矩阵乘法。给出的示例代码如下：但是，我使用的是C++和[found that][1] i，而不是malloc (现在，我正在通过单指令多路复用/SSE进一步优化，所以我需要对齐内存，所以问题是:我需要memalign/_aligned_malloc，还是我的数组声明为 static float m1[SIZE][

浏览 4提问于2012-10-03得票数 2

回答已采纳

1回答

Marshal.GetDelegateForFunctionPointer失败

、、、、

from Kernel32.dll }}extern "C" { void __declspec(dllexport) Matrix4x4_Multiply_SSE

浏览 4提问于2011-10-21得票数 1

回答已采纳

8回答

用SSE加速浮点5x5矩阵*向量乘法

、、、、

我需要每秒运行矩阵向量乘法240000次。矩阵为5x5，并且总是相同的，而向量在每次迭代时都会发生变化。数据类型为float。我正在考虑使用一些SSE (或类似的)指令。

浏览 6提问于2011-07-07得票数 13

回答已采纳

2回答

使用SSE向量指令加速矩阵-矩阵乘法

、、

我在使用SSE向量指令向量化一些C代码时遇到了一些问题。result[i][k] += mat1[i][j] * mat2[j][k]; }}void matrix_mul_sse

浏览 0提问于2018-10-30得票数 1

2回答

访问C#应用程序性能中的C++代码

、、、、

我正在考虑在C#应用程序中运行一个用C++编写的函数，无论是移动应用程序还是普通应用程序。在C#环境(应用程序)中运行用C++(数学处理)编写的代码更快，还是在用C# (理论上)编写相同的代码时相同？谢谢!第二个问题:如何在C#应用程序中包含和访问C++代码，而不是从DLL外部访问它？

浏览 3提问于2012-08-24得票数 1

1回答

有效的SSE NxN矩阵乘法

、、、、

我试图通过矩阵乘法来实现大矩阵的SSE版本。我正在寻找一种基于SIMD实现的高效算法。我想要的方法如下：所有矩阵都被认为是16字节对齐浮点数数组.所以，如果有人能帮我找到一些关于如何开始实现的文章或资源，我将不胜感激。

浏览 6提问于2014-02-01得票数 3

回答已采纳

2回答

利用SSE2加速矩阵乘法运算

、、、、

我想知道如何通过SSE2加速矩阵乘法int mat_mult_simd(double *a, double *b, double *c, int n) __m128d c1,

浏览 2提问于2014-06-04得票数 2

2回答

SSE矩阵-矩阵乘法

、、

在C语言中，我很难用SSE做矩阵乘法。搜索剂量似乎有很大帮助-每个结果要么只做4x4矩阵，magic或一些特殊的魔术，不太容易读和难以理解.

浏览 1提问于2016-10-28得票数 3

回答已采纳

4回答

如何创建仅存在于特定模板专门化的函数

、、

当我处理Float值的矩阵时，我有SSE优化的矩阵乘法函数。目前，我的方法包括一个名为"doSSE_mulMM“的函数，它通过矩阵乘法完成一个矩阵，包括几个检查，但它只与Matrix<Float>相关(部分原因是我在代码中检查了SSE能力，如果没有SSE，则转移到一个效率较低的乘法中Matrix<Float>& mat2,

浏览 2提问于2013-08-30得票数 1

回答已采纳

2回答

SSE，行主要与列主要性能问题

、、、

出于个人和有趣的考虑，我使用SSE(4.1)编写了一个geom库。 );我的类Vec4只是一个__m128 m_val，在优化

浏览 0提问于2014-05-30得票数 3

5回答

高性能应用程序中的C/C++与Java/C#

、、

我的问题是关于Java与编译代码的性能，例如C++/fortran/程序集在高性能的数值应用程序中。我知道这是一个有争议的话题，但我正在寻找具体的答案/例子。还有社区维基。双精度矩阵乘法(在blas库中通常称为dgemm )能够达到几乎100 %的峰值CPU性能(以浮点运算每秒计算)。向量指令，如SSE 我已经看到了许多使用程序集、C++、Fortran、Atlas、供应商BLAS的基准测试(典型的例子是维度512及以上的矩

浏览 7提问于2010-02-27得票数 11

5回答

从3D数学到SSE或其他SIMD的转换速度有多快？

、、、、

通过将我的向量/矩阵库转换为SSE、AltiVec或类似的SIMD代码，我可以实现多大的加速？

浏览 0提问于2008-09-22得票数 10

回答已采纳

2回答

矩阵向量乘法vs. dgemm

、、

我在我的代码中做了大量的矩阵向量乘法。我发现我天真的实现胜过了MKL10中的cblas_dgemm。我自己的猜测可能是dgemm做了alpha* A *B + beta *C，而我只做了A *B。但朴素的实现要好得多(大约3倍的加速)。有没有想过为什么会这样呢？以下是矩阵向量乘法的实现：{ for (int ii = 0;for (int kk = 0; kk <

浏览 1提问于2011-04-09得票数 0

1回答

是否有一个数学库可以利用Visual C++* 2012中的新特性？*

、、、、

在VS 2012 C++编译器中有许多用于并行编程的新特性：矢量化在默认情况下是应用的，因此我们跳过这一部分。库是不可移植的，所以我们也跳过了。

浏览 2提问于2012-12-12得票数 0

3回答

表示和乘以稀疏布尔矩阵的最快方法是什么？

、、、、

所以，我使用的布尔矩阵的维数通常是几十到几百，它们通常是相当稀疏的(在大多数行和列中只有2-4个非零)，并且我的运行时主要由它们的乘法控制。在这种情况下，哪种数据结构最适合加速乘法？目前，我将每个矩阵按行存储在一个连续的位集(64位长的数组)中，并使用基本的标准算法将它们相乘，只是通过在字中定位下一组位的快速操作以及通过位掩码操作进行矢量化来加速稀疏性。

浏览 0提问于2010-09-05得票数 9

1回答

单C#/C++互操作，优化矩阵乘法-开销导致的最小增益？

、、、、

我在C#上有一个矩阵结构，在不使用SSE本质的情况下实现乘法操作。由于此时我无法访问代码，所以我将尽可能多地指定详细信息，而不是复制/粘贴定义。我试图使用P/Invoke对C++函数进行调用，以优化乘法。我的问题是关于传递参数。正如在MSDN上提到的，如果所传递的类型不可闪动，则成本为10至30个CPU +编组周期。C++结构。然而，最坏的情况变得更糟，从150 to的C#乘法到400 to的C++乘法，这使我认为

浏览 2提问于2017-06-07得票数 0

回答已采纳

2回答

硬件加速了吗？

test1：对于每一种模型:model矩阵，glmultmatrixf，gldrawelements，glpop矩阵。/glscale/glscale从来都不是硬件加速<

浏览 1提问于2014-11-19得票数 1

回答已采纳

1回答

当进行矩阵乘法时，numpy是否使用内存中的空间局部性？

、、、

在乘以大型矩阵(例如A和B，A.dot(B))时，numpy是否通过计算B的转置并使用逐行乘法来使用空间局部性，或者它是否以列的方式访问B的元素，这将导致许多缓存未命中。例如，如果我在一台20核的机器上运行4个独立的执行矩阵乘法(对于大矩阵)的程序实例，我只看到2.3倍的加速。

浏览 0提问于2015-05-06得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

浮点数字与定点数字: Intel I5 CPU上的速度

为什么用浮点矩阵乘法执行浮点数比用int乘整数更快？

像`float[10][10]`这样初始化的数组已经内存对齐了吗？

Marshal.GetDelegateForFunctionPointer失败

用SSE加速浮点5x5矩阵*向量乘法

使用SSE向量指令加速矩阵-矩阵乘法

访问C#应用程序性能中的C++代码

有效的SSE NxN矩阵乘法

利用SSE2加速矩阵乘法运算

SSE矩阵-矩阵乘法

如何创建仅存在于特定模板专门化的函数

SSE，行主要与列主要性能问题

高性能应用程序中的C/C++与Java/C#

从3D数学到SSE或其他SIMD的转换速度有多快？

矩阵向量乘法vs. dgemm

是否有一个数学库可以利用Visual C++* 2012中的新特性？*

表示和乘以稀疏布尔矩阵的最快方法是什么？

单C#/C++互操作，优化矩阵乘法-开销导致的最小增益？

硬件加速了吗？

当进行矩阵乘法时，numpy是否使用内存中的空间局部性？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐