为什么矢量化的Pinv比未矢量化的慢？

文章/答案/技术大牛

发布

1回答

python、numpy、vectorization

如果我运行np.cov，然后对它们分别执行pinv，则总时间为： %timeit for n in range(10): pinv(np.cov(A,rowvar = False))485 ms ± 18 ms per loop (mean ± std. d

浏览 28提问于2019-03-10得票数 2

回答已采纳

1回答

numpy.sum可能比Python for循环慢

python、performance、numpy、vectorization

在特定轴上对数组求和时，专用数组方法array.sum(ax)实际上可能比for循环慢：10000 loops, best of 3: 39.3 us per loop 矢量化方法比普通的for循环慢4倍以上！这是怎么回事(G)，难道我不能相信numpy中的矢量化

浏览 0提问于2013-01-29得票数 7

4回答

为什么回路在R中变慢？

performance、r、apply

我知道循环在R中是缓慢的，我应该尝试以矢量化的方式来做事情。“为什么矢量化更快？”

浏览 4提问于2011-08-22得票数 92

回答已采纳

3回答

比FPU慢？

c++、optimization、sse、vectorization、simd

我有一大段代码，其中一部分包含了以下代码：我将其矢量化如下reinterpret_cast<float (&)[4]>(asInt);结果是正确的；但是，我的基准测试表明矢量化版本要慢一些。非<em

浏览 5提问于2012-01-13得票数 9

回答已采纳

2回答

OpenCL vloadn casting

opencl、vectorization

我使用OpenCL优化算法，我想对内核进行矢量化。在数据对齐的情况下，vloadn / vstoren比简单地转换为所需的向量慢吗？

浏览 0提问于2013-10-31得票数 0

2回答

“向量化”一词在不同的语境中是否意味着不同的事物？

r、julia、vectorization

基于我之前所读到的，矢量化是一种称为SIMD的并行化形式。它允许处理器在数组上同时执行相同的指令(例如加法)。这使一些不熟悉R的内部结构的人感到困惑，因此值得注意的是如何提高R代码的速度。性能改进的过程非常简单:

浏览 1提问于2018-08-04得票数 8

回答已采纳

2回答

R中是否有“`Filter`”(或‘`purrr:存档’)的向量化版本？

r、vectorization、purrr

在以下示例中，筛选器似乎比矢量化版本慢：# utilisateur système écouléu))# 0.71 0.00 0.72 在这种情况下，是否有比Filter更快的函数

浏览 5提问于2022-11-17得票数 0

1回答

涉及MaxRowsAtCompileTime / MaxColsAtCompileTime的矩阵乘法性能问题

gcc、matrix、eigen、eigen3

通过阅读关于的文章，我会认为编译时已知的固定上限的动态矩阵的行为与动态分配的矩阵非常相似，从而具有相似的计算速度。但事实并非如此。这是最让我惊讶的，也是引发我最初探索的原因:我想知道是否最好使用一个具有固定上限的动态矩阵，它是16字节的倍数，而固定大小矩阵的大小不是16字节的倍数。最后，有趣但并不令人惊讶:一个大小固定的矩阵是16的倍数并不比矩阵的</em

浏览 1提问于2016-11-30得票数 1

2回答

基于GPU并行处理Matlab的图像处理算法

performance、matlab、image-processing、vectorization、gpgpu

我想加速我的算法，因为我需要在数百张图像上运行它，所以我尝试使用未矢量化的GPU代码，在GPU上运行相同的代码，我有nvidia Geforce GT 650 m，我的PC上有2GB，但是它比CPU版本慢在搜索之后，我确信可以使用批处理传递到矢量化的GPU代码(pagefun，bsxfun)，我在没有解决方案的情况下试图解决这个问题。有人能帮我处理一下这个代码吗？*log(B(i,j,c)));

浏览 0提问于2016-08-24得票数 0

回答已采纳

3回答

为什么Cython比矢量化NumPy慢？

python、arrays、performance、numpy、cython

below :100 loops, best of 3: 129 ms per loop 我尝试了使用不同的数据集大小，并且始终让向量化的NumPy函数比编译的Cython代码运行得更快，而我希望Cython在性能上与矢量化的NumPy相当。我忘记了我的Cython代码中的优化吗？NumPy是否使用某些东西(BLAS?)为了让这样简单的操

浏览 2提问于2014-06-19得票数 12

回答已采纳

1回答

朱莉娅什么时候喜欢向量化？

vectorization、julia

在Julia中，我有两个函数来确定π的数值。第二个函数(我认为它是向量化的)比第一个函数慢。为什么矢量化比较慢？什么时候要矢量化，什么时候不应该有规则吗？

浏览 2提问于2015-02-21得票数 10

回答已采纳

1回答

糟糕的表现- Android & JNI (C++图像处理和OpenCV)

android、performance、opencv、image-processing、jvm

我有一个运行在Android上的应用程序，它通过JNI接口与C++代码相结合。在C++代码中，我使用OpenCV进行一些硬图像处理。我还在两台笔记本电脑上做了一些测试。在本例中，是一个Java，它通过JNI与相同的C++代码组合在一起。如果我在华硕笔记本电脑(AMDE-450Procesor)或Bangho笔记本电脑(英特尔核心i5)上运行这个应用程序，它们都有4GB内存，我在几秒钟内就能得到相同的结果。(注:使用笔记本电脑的

浏览 2提问于2013-09-16得票数 0

1回答

Python与Matlab的循环性能比较

python、matlab、performance、for-loop

在Python和Matlab上，代码的矢量化版本都相当快。但是，有时我必须使用(for)循环。在这些情况下，Python循环非常慢。为什么是这样呢？在下面的代码中，很明显，矢量化版本的运行方式是相似的。但Matlab中的for循环版本相当不错，而Python版本则非常慢。虽然Python矢量化版本稍微快一些，但for循环版本非常慢。对于Python中更快的循环，有什么解决方法吗？

浏览 0提问于2019-06-28得票数 0

1回答

如何在python中通过mpmath / gmpy有效地使用JIT？

python、cython、jit、numba、mpmath

这是我第一次尝试在python中使用JIT，这也是我想要加速的用例。我读了一些关于numba的文章，它看起来很简单，但下面的代码并没有提供任何加速。请原谅我可能犯的任何明显的错误。我也试着按照cython的基本教程建议的那样做，但在时间上也没有区别。例如，我从前面的问题中了解到，使用gmpy而不是mpmath的速度要

浏览 1提问于2014-10-26得票数 4

1回答

如何在MATLAB代码中向量化这个For循环？

matlab、for-loop、vectorization

我的代码中有for循环(如下所示)，它需要一段时间才能运行。CALC是我定义的函数；D是一个矩阵；Y是一个矩阵；k是一个向量。有没有一种方法可以向量化这段代码，这样我就可以去掉for循环了？] = max(abs(r'*A));atoms = [atoms, A(:,lambda_t)]; x_t = pinv

浏览 1提问于2015-06-19得票数 0

1回答

矢量化模算法

c、assembly、x86-64、sse、intrinsics

我的基线是从%q中删除LINE1。使用dim=11221184调用100个(迭代)函数需要1.6秒。ICC自动矢量化SSE的代码；很好。不过，我真的很想做模块化的补充。使用%q，ICC不会自动将代码矢量化，它在11.8秒(！)内运行。即使在之前的尝试中忽略了自动矢量化，这似乎还是太过了。由于我没有AVX2，所以使用SSE的矢量化需要SVML，这也许就是ICC没有自动矢量化的原因。无论如何，下面是我

浏览 3提问于2013-12-16得票数 11

回答已采纳

1回答

用GCC强制自动向量化

c、gcc、vectorization、simd

这是我非常简单的问题。有了ICC，我知道可以使用#杂注SIMD来强制将编译器选择不矢量化的循环矢量化。《GCC》里面有没有类似的东西？或者，是否有计划在未来的版本中添加此功能？非常相关的，如何使用Graphite强制矢量化？感谢你考虑我的请求，法比奥

浏览 14提问于2013-02-07得票数 2

1回答

Tensorflow:如何在4D数据格式(batch_size、宽度、高度、通道)上使用1D/2D操作符，保留batch_size和通道

python、tensorflow

任何类似的或任何关于这方面的教程都是值得感谢的。如果没有一个共同的方法来解决这个问题，我需要为每个运营商设计一个独特的方法，让我知道。因为我对这件事很陌生。谢谢！！在我的数据上使用tf.reduce_max() data = (2,480,640,3)，意味着(batch_size, width, hight, channels)，预期结果类似于(2,1,3)，意味着为每个通道上的每个批找到一个最大值,j) img_re = tf.reshape(img, shape=(480*640,)

浏览 0提问于2019-05-14得票数 0

1回答

根据同一列的前一个值对列的值进行矢量化计算？

python、pandas、vectorization、difference

我想要一个矢量化的解决方案来创建一个新的C列，其中C[i] = C[i-1] - A[i] + B[i]。, 4, 5]}) A B 1 2 1 3 4 3 5 6 5但是由于循环比矢量化计算慢，所以我想在熊猫中给出一个矢量化的解决方案。我试

浏览 2提问于2015-12-27得票数 6

回答已采纳

1回答

For循环瓶颈(d>2的数组的切片中的外积和矩阵乘法)

matlab

提前感谢您的帮助。我在MATLAB中运行数值优化，以使时间序列模型的参数与数据相匹配。为了加快运行速度，我已经向量化了尽可能多的代码，但是我留下了下面的for循环，它们比其他代码行慢一个数量级。因此，优化速度非常慢，特别是当我想比较许多模型的性能时。这些操作涉及在n-d阵列(其中n大于2)的切片上重复的外部向量乘积或矩阵乘法。我已经通过各种方式对下面的for循环进行了矢量化，例如通过重塑矩阵(以及使用repmat或

浏览 2提问于2017-05-02得票数 1

点击加载更多