带整数输入的ArrayFire矩阵乘法

文章/答案/技术大牛

发布

1回答

、、

我想通过向量乘法来执行矩阵运算，但要在整数类型的数组上执行，以避免额外的转换(当两边都是f32类型时，这很好用)；这样的操作会抛出整数类型的错误类型异常，有什么解决方法吗？

浏览 21提问于2021-03-23得票数 1

回答已采纳

1回答

对于如何在ArrayFire中使用多个主机线程，我有一个新的问题。我们目前有一个高度并行的CPU专用代码，使用Open和mpi4py并行化.每个CPU线程执行大型矩阵乘法，通常与多个线程同时相乘。我们希望通过使用ArrayFire在单个GPU上执行矩阵乘法来提高性能。我试图弄清楚是否可以让多个CPU主机线程向GPU发送矩阵乘法作业，并让GPU同时执行这些乘法操作。或者，每个CPU主机线程必须等到G

浏览 3提问于2018-01-11得票数 2

回答已采纳

1回答

如何使用推力减少外积

、

.$ 上面的代码是latex。

浏览 3提问于2012-11-30得票数 3

1回答

什么是Keras中的嵌入？

我知道我们可以用它将输入特征空间压缩成一个更小的空间。但从神经设计的角度来看，这是如何做到的呢？它是一个自动编码程序吗，RBM？

浏览 27提问于2016-07-05得票数 102

1回答

使用ArrayFire库

、、

我下载了免费版本的ArrayFire库。我试着用它来测试矩阵乘法。但是，我得到了一堆未定义的引用，例如matrixdata.cpp:(.text+0x1a31): undefined reference to af::array::~array() 当然，我注意到我还没有将ar

浏览 8提问于2015-05-01得票数 1

回答已采纳

1回答

numpy =不工作*

、

我用numpy来计算矩阵乘法。如果我使用t=t* x，它工作得很好，但是如果我使用t *= x，它不会。我需要使用t=t* x吗？

浏览 3提问于2016-02-19得票数 2

回答已采纳

1回答

如何使用OpenACC优化矩阵乘法？

、、、

我正在学习OpenACC (使用PGI的编译器)，并试图优化矩阵乘法示例。，我意识到生成的CUDA代码非常原始(例如，它甚至不使用共享内存)，因此无法与手动优化的CUDA程序竞争。作为参考实现，我以Arrayfire lib为例，结果如下：CUDA toolkit 4.2, driver 295.59 af:

浏览 7提问于2012-08-03得票数 6

回答已采纳

1回答

一个矩阵的标量乘法需要多少运算？

、

我知道矩阵的加法需要n^2运算，矩阵乘法需要n^3运算。矩阵的标量乘法也需要n^3运算，还是不同的数？谢谢!

浏览 8提问于2016-02-26得票数 0

回答已采纳

2回答

为什么用浮点矩阵乘法执行浮点数比用int乘整数更快？

、、、、

有两个int矩阵A和B，有超过1000行和10K列，我通常需要将它们转换为浮动矩阵以获得加速比(4x或更多)。我想知道为什么会这样？我意识到在浮点矩阵乘法中存在大量的优化和矢量化，如AVX等。但是，对于整数有这样的AVX2指令(如果我没有弄错的话)。而且，对于整数，不能使用SSE和AVX吗？为什么在矩阵代数库(如Numpy或Eigen )下面没有一个启发式的方法来捕捉这一点，并像浮点一样更快地执行整数</e

浏览 11提问于2017-07-28得票数 26

回答已采纳

2回答

OpenCL中复杂数学问题的开源库，如矩阵多项式、逻辑单元、快速傅立叶变换等

、、、、

GPU在通用中的使用现在是很普遍的。最基本的是，矩阵乘法是OpenCL教程中的第一个。而不是为特定的gpu编写代码和内核代码。是否可以从MKL之类的库中调用它们。Arrayfire在那里，但不是免费的。我正在尝试将我的仿真软件移植到GPU上，它具有矩阵多路转换、LU分解、FFT等功能。我正在寻找这些健壮的代码，而不是从头开始编写它们。我已经有了一个可用的<

浏览 0提问于2013-04-28得票数 4

回答已采纳

1回答

16位不动点的矩阵乘法

、、、

我需要在神经网络中执行不同层次之间的矩阵乘法。即：W0, W1, W2, ... Wn是神经网络的权值，输入是data。OutN = Out(N-1) * Wn 我知道权值矩阵中的绝对值，也知道输入数据范围值从0到1(输入是规范化的)。矩阵乘法为16位不动点。将权重放大到最佳格式点。例如:如果W0中的绝对最大值为2.5，我知道整数部分中的

浏览 1提问于2020-11-28得票数 1

2回答

在ArrayFire中将向量分量与数组相乘

当我试图用数组(元素乘法或广播)乘向量分量时，我得到了一个错误。错误声明是明确的： #include <arrayfire.h> {ATI Radeon HD 6750 M3 3 1 10.0000 0.0000 0.0000 0.0000 0.0000 0.0000 vect有人会认为这个例子是使用A

浏览 4提问于2016-09-30得票数 1

回答已采纳

1回答

AffineTransform是如何工作的？

、、、

在定义运算符时，矩阵的级联是如何有意义的？当我们处理二维时，为什么会有三维矩阵？我觉得问这个问题真的很愚蠢，但我对向量分析和代数很熟悉，但我缺乏这方面的任何信息。为什么不只是将变换或缩放矩阵相乘，然后作为运算符应用到坐标上呢？我正试图在我已经可以用鼠标翻译的网格上做一个缩放鼠标功能，但是有两天我做不到。有没有办法在变压器上使用setTranslate或setScale而不重置已经存在的操作员呢？级联的组成是如何工作的？编辑，我终于得

浏览 1提问于2014-09-09得票数 0

1回答

into的输入矩阵在cblas_sgemm中返回所有的0

、

我试图使用cblas_sgemm对两个ints矩阵进行快速矩阵乘法。我运行了一个快速的朴素矩阵乘法，以双重检查预期的输出数据，它们不应该是零。输入数据是黑匣子，但是不变的。

浏览 3提问于2012-11-29得票数 2

回答已采纳

1回答

矩阵尺寸必须一致，但它们是正确的

、

我有一个矩阵，它被分配给变量a。因此，我运行了以下代码但是，据说维数不匹配，我无法解决原因。

浏览 2提问于2014-03-05得票数 0

回答已采纳

2回答

整数值矩阵在MATLAB中的乘法

、、

在MATLAB中乘整数值矩阵的最佳方法是什么？我惊讶地得知以下这些行为是不被接受的：>> x * x'MTIMES is not fully supported for这是最好的解决办法吗？我在用R2013b。

浏览 7提问于2013-10-25得票数 6

回答已采纳

1回答

使用cuda将数百个矩阵相乘

、、

我正在写一个程序，需要使用CUDA并行乘以数百个矩阵。有没有人能解释一下怎么做这个手术。我已经看到开普勒体系结构能够实现动态并行。有没有人使用过这个架构?如果有，是哪一块Nvidia显卡？

浏览 0提问于2012-10-24得票数 5

1回答

numpy的矩阵乘法

、

我在numpy中有两个布尔矩阵，并且使用.dot()函数对它们进行乘，得到的结果是一个布尔矩阵。提前谢谢。

浏览 1提问于2013-12-04得票数 2

回答已采纳

1回答

直接DCT与行和列DCT有什么不同？

、

我知道与使用行和列方法相比，直接DCT更快，但是它们到底是如何工作的呢？我已经在互联网上找遍了，但似乎找不到任何资源。

浏览 2提问于2017-05-04得票数 0

1回答

使用双精度浮点实现的整数乘法是否精确到2^53？

、、、、

我这样问是因为我正在计算矩阵乘法，其中所有的矩阵值都是整数。我想使用LAPACK，这样我就可以得到正确的快速代码。当两个大整数(其乘积小于2^53)相乘时，是否会产生包含确切整数结果的double？

浏览 0提问于2012-12-28得票数 5

回答已采纳

点击加载更多