首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >为什么numpy multi_dot比numpy.dot慢?

为什么numpy multi_dot比numpy.dot慢?
EN

Stack Overflow用户
提问于 2017-08-24 10:58:18
回答 1查看 1.9K关注 0票数 0

我正在尝试优化一些执行大量顺序矩阵运算的代码。

我认为numpy.linalg.multi_dot (docs here)将执行C或BLAS中的所有操作,因此它将比arr1.dot(arr2).dot(arr3)等要快得多。

我真的很惊讶在笔记本上运行这段代码:

代码语言:javascript
复制
v1 = np.random.rand(2,2)

v2 = np.random.rand(2,2)



%%timeit 
    ​    
v1.dot(v2.dot(v1.dot(v2)))

The slowest run took 9.01 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 3.14 µs per loop



%%timeit        ​

np.linalg.multi_dot([v1,v2,v1,v2])

The slowest run took 4.67 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 3: 32.9 µs per loop

发现使用multi_dot进行同样的操作大约要慢10倍。

我的问题是:

  • 我是不是漏掉了什么?这有什么意义吗?
  • 有没有其他优化顺序矩阵运算的方法?
  • 我应该期待使用cython时也有同样的行为吗?
EN

回答 1

Stack Overflow用户

发布于 2017-08-24 11:12:30

这是因为您的测试矩阵太小且太规则;找出最快的评估顺序的开销可能会超过潜在的性能收益。

使用文档中的示例:

代码语言:javascript
复制
import numpy as snp
from numpy.linalg import multi_dot

# Prepare some data
A = np.random.rand(10000, 100)
B = np.random.rand(100, 1000)
C = np.random.rand(1000, 5)
D = np.random.rand(5, 333)

%timeit -n 10 multi_dot([A, B, C, D])
%timeit -n 10 np.dot(np.dot(np.dot(A, B), C), D)
%timeit -n 10 A.dot(B).dot(C).dot(D)

结果:

代码语言:javascript
复制
10 loops, best of 3: 12 ms per loop
10 loops, best of 3: 62.7 ms per loop
10 loops, best of 3: 59 ms per loop

multi_dot通过计算标量乘法次数最少的最快乘法顺序来提高性能。

在上面的例子中,默认的规则乘法顺序((AB)C)D被计算为A((BC)D)--因此1000x100 @ 100x1000乘法被减少为1000x100 @ 100x333,从而至少减少了2/3标量乘法。

可以通过测试来验证这一点

代码语言:javascript
复制
%timeit -n 10 np.dot(A, np.dot(np.dot(B, C), D))
10 loops, best of 3: 19.2 ms per loop
票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45852228

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档