首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >NumPy/SciPy中的多线程整数矩阵乘法

NumPy/SciPy中的多线程整数矩阵乘法
EN

Stack Overflow用户
提问于 2016-01-30 19:39:35
回答 2查看 6.4K关注 0票数 25

做像这样的事情

代码语言:javascript
复制
import numpy as np
a = np.random.rand(10**4, 10**4)
b = np.dot(a, a)

使用多核,并且运行良好。

不过,a中的元素是64位浮点数(在32位平台中是32位吗?),我想将8位整数数组相乘。不过,请尝试以下几点:

代码语言:javascript
复制
a = np.random.randint(2, size=(n, n)).astype(np.int8)

结果导致点积不使用多核,因此在我的PC上运行速度慢了大约1000倍。

代码语言:javascript
复制
array: np.random.randint(2, size=shape).astype(dtype)

dtype    shape          %time (average)

float32 (2000, 2000)    62.5 ms
float32 (3000, 3000)    219 ms
float32 (4000, 4000)    328 ms
float32 (10000, 10000)  4.09 s

int8    (2000, 2000)    13 seconds
int8    (3000, 3000)    3min 26s
int8    (4000, 4000)    12min 20s
int8    (10000, 10000)  It didn't finish in 6 hours

float16 (2000, 2000)    2min 25s
float16 (3000, 3000)    Not tested
float16 (4000, 4000)    Not tested
float16 (10000, 10000)  Not tested

我知道NumPy使用BLAS,它不支持整数,但如果我使用SciPy BLAS包装器,即。

代码语言:javascript
复制
import scipy.linalg.blas as blas
a = np.random.randint(2, size=(n, n)).astype(np.int8)
b = blas.sgemm(alpha=1.0, a=a, b=a)

计算是多线程的。现在,对于浮点32,blas.sgemm的运行时间与np.dot完全相同,但对于非浮点数,它会将所有内容转换为float32并输出浮点数,这是np.dot所不做的。(此外,b现在是F_CONTIGUOUS顺序,这是一个较小的问题)。

因此,如果我想做整数矩阵乘法,我必须执行以下操作之一:

  1. 使用Numpy的慢得令人痛苦的np.dot,很高兴我保留了8位的sgemm,并使用了4倍的内存。
  2. 使用的是Numpy的np.float16,只使用了2倍的内存,但需要注意的是,np.dot在float16阵列上比在float32阵列上慢得多,比int8慢得多。
  3. 找到一个用于多线程整数矩阵乘法的优化库(实际上,Mathematica做到了这一点,但我更喜欢支持1位阵列的Python解决方案),虽然8位数组也可以...(实际上我的目标是在有限域Z/2Z上做矩阵乘法,我知道我可以用Sage来做这件事,这是非常Python式的,但是,再说一次,有没有严格意义上的Python?)

我可以遵循选项4吗?这样的库存在吗?

免责声明:我实际上正在运行NumPy + MKL,但我已经在vanilly NumPy上尝试了类似的测试,得到了类似的结果。

EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35101312

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档