GPU上的pytorch排序/中值与CPU上的numpy一样慢。我是不是遗漏了什么？

根据您提供的问答内容，您似乎没有遗漏任何信息。然而，我想提醒您，GPU上的PyTorch排序/中值与CPU上的NumPy速度慢可能是由于以下几个原因：

数据规模较小：GPU在处理小规模数据时，由于数据传输和并行计算的开销，可能无法发挥其并行计算能力，导致速度慢于CPU。在这种情况下，使用CPU进行计算可能更为高效。
数据类型不匹配：GPU上的计算通常基于浮点数运算，而CPU上的NumPy默认使用双精度浮点数。如果在GPU上使用PyTorch进行排序/中值计算时，数据类型不匹配可能导致额外的转换开销，从而影响性能。
算法实现不优化：PyTorch的排序/中值算法在GPU上的实现可能相对较慢，或者没有充分利用GPU的并行计算能力。这可能是由于算法实现的复杂性或优化程度不足所致。

为了解决这个问题，您可以考虑以下几点：

数据规模优化：如果您的数据规模较小，可以尝试在CPU上进行计算，以避免GPU的开销。如果数据规模较大，GPU通常能够发挥其并行计算能力，提供更高的计算速度。
数据类型匹配：确保在GPU上使用PyTorch进行计算时，数据类型与GPU的计算能力相匹配，避免额外的转换开销。
算法优化：如果您对PyTorch的排序/中值算法实现不满意，可以尝试自行优化算法或寻找其他优化的开源实现。PyTorch社区中可能存在一些针对排序/中值计算的优化库或技术。

总结起来，GPU上的PyTorch排序/中值与CPU上的NumPy一样慢可能是由于数据规模较小、数据类型不匹配或算法实现不优化等原因。针对具体情况，您可以根据数据规模和需求选择合适的计算设备，并尝试优化数据类型和算法实现，以提高计算速度。

页面内容是否对你有帮助？

有帮助

没帮助

对于较大的交叉或外部产品，NumPy比PyTorch更快

python、numpy、optimization、pytorch、cross-product

我正在计算(50500,)大小向量之间的巨大外积，发现NumPy是(多？)这样做比PyTorch更快。以下是测试结果： # NumPy In [64]: a = np.arange(50500) In [65]: b = a.copy() In [67]: %timeit np.outer(a, b) 5.81 s ± 56.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) ------------- # PyTorch In [73]: t1 = torch.arange(50500) In [76]: t2

浏览 2提问于2019-01-25得票数 3

1回答

将gpu.js用于元胞自动机

javascript、cellular-automata、gpu.js

我正在尝试使用gpu.js运行一维元胞自动机，但是看起来我的代码在没有gpu.js的情况下要快20倍。我不明白问题出在哪里。下面的代码从单元格上的单个元胞自动机开始运行规则30的元胞自动机。自动机的长度是2001个单元。代码使用CPU和GPU计算前10000代，CPU需要0.16秒，而GPU需要3.2秒。 gen = []; for (var i = 0; i<1000; i++) gen.push(0); gen.push(1); for (var i = 0; i<1000; i++) gen.push(0); const gpu = new GPU(); const k

浏览 1提问于2019-06-03得票数 0

1回答

PyTorch方法中使用了哪些类型的优化？

multithreading、optimization、pytorch、speedus

我使用torch.mm或torch.dot等方法，使用PyTorch实现了一系列密集的矩阵运算。我想知道PyTorch是否使用了多线程或其他优化机制来加速这个过程。我没有使用GPU。如果你能告诉我这些方法有多快，以及我是否需要采取任何行动来帮助这个过程，我将不胜感激。

浏览 20提问于2019-01-26得票数 1

回答已采纳

3回答

当一个矩阵非常宽时实现矩阵乘法的有效方法？

python、pytorch

我需要把3个矩阵相乘，A: 3000x100, B: 100x100, C: 100x3.6MM。我目前只在PyTorch中使用标准矩阵乘法 A_gpu = torch.from_numpy(A) B_gpu = torch.from_numpy(B) C_gpu = torch.from_numpy(C) D_gpu = (A_gpu @ B_gpu @ C_gpu.t()).t() C非常广泛，所以gpu上的数据重用是有限的，但是有没有其他方法来加速呢？我有一台有4x GPU的机器。

浏览 1提问于2019-03-01得票数 1

1回答

利用GPU并行化的转换函数

pytorch、numba

我有一个函数，它使用存储在一个数组中的值对另一个数组进行操作。这与numpy.hist函数的行为类似。例如： import numpy as np from numba import jit @jit(nopython=True) def array_func(x, y, output_counts, output_weights): for row in range(x.size): col = int(x[row] * 10) output_counts[col] += 1 output_weights[col] += y[row]

浏览 6提问于2022-06-16得票数 2

回答已采纳

1回答

为什么与GPU相比，具有较短倒排列表的查询在CPU上执行得更好

search-engine、cpu、gpu、information-retrieval

此外，为什么具有更长倒排列表的查询在GPU上执行得更好？我在一篇名为《使用图形处理器进行高性能IR查询》的论文中读到了这一结果。

浏览 4提问于2011-05-12得票数 1

1回答

TfIdfVectorizer在GPU上速度较慢(cuml与sklearn实现)

python、tensorflow、nlp、gpu、tfidfvectorizer

我在大数据上运行TfIdfVectorizer (理想情况下，我想在我的所有数据上运行它，这些数据是30000个文本，每个文本大约20000个单词)。最初，我使用的是默认的sklearn.feature_extraction.text.TfidfVectorizer，但我决定在GPU上运行它，这样它就会更快。结果恰恰相反--它真的，真的很慢！我在一个Kaggle笔记本with Tesla P100-PCIE-16GB (非常强大的图形处理器)上运行代码。您可以在这里查看这两个代码:非GPU实现： import pandas as pd from sklearn.feature_extracti

浏览 2提问于2021-06-07得票数 0

1回答

并行合并排序在膝上型计算机上工作，但在GPU和Xeon上不工作

c、openmp、gpu

void pmergesort(int a[], int l, int r) { if (l < r) { int m = l+(r-l)/2; #pragma omp parallel { #pragma omp single { #pragma omp task pmergesort(a, l, m); } #pragma

浏览 4提问于2016-05-15得票数 1

回答已采纳

1回答

GPU上的Pytorch转换，是否值得使用大输入数据？

python、machine-learning、pytorch、image-preprocessing

我正在运行一个preprocessing.上带有PyTorch on 成像数据的UNet，其中包含一系列的转换和增强。然而，在深入研究不同的预处理包(如Torchio和MONAI )之后，我注意到大多数函数，即使它们以张量作为IO，也在CPU上运行。函数要么直接以numpy数组作为输入，要么在张量上调用.numpy()。问题是，我的数据是由维度91x109x91的3D图像组成的，我在96x128x96中调整了尺寸，所以它们非常大。因此，我认为在CPU上运行转换和增强是非常低效率的。首先，它使我的程序CPU绑定，因为它需要更多的时间来转换我的映像，而不是在模型中运行它们(我对其进行了多次计时

浏览 3提问于2021-08-04得票数 1

1回答

翻译用于CPU编译的OpenCl代码

numpy、opencl、cython、pyopencl

有时，我发现自己编写OpenCl内核代码(使用pyopencl)，即使对于涉及中等计算复杂性的任务也是如此，因为它比一系列numpy操作更容易开发(特别是在不存在合适的numpy函数的情况下)。但是，在这些情况下，主机和设备之间的传输开销/延迟可能会超过计算所花费的时间。我正在考虑创建一些Python工具，它可以自动将OpenCl代码转换为例如Cython代码(或类似代码)，在为CPU编译后，可以直接在numpy数组的底层内存上工作，而不需要将数据复制到设备上。我知道CPU能够通过适当的驱动程序执行OpenCl内核。然而，这仍然具有由于to_device操作而导致的额外延迟的缺点。多核CP

浏览 3提问于2021-09-11得票数 0

1回答

Tensorflow在GPU上比CPU上慢

tensorflow、keras、gpu、tensorflow2.x

使用带有Tensorflow后端的Keras，我正在尝试训练LSTM网络，在GPU上运行它比在CPU上运行要花费更长的时间。我正在训练一个使用fit_generator功能的LSTM网络。它需要CPU ~250秒每一个时代，它需要GPU ~900秒每一个时代。我的GPU环境中的包包括 keras-applications 1.0.8 py_0 anaconda keras-base 2.2.4 py36_0 anaconda keras-gpu

浏览 0提问于2019-06-25得票数 4

回答已采纳

4回答

在CUDA上什么是好的排序算法？

sorting、cuda

我有一个struct数组，我需要根据struct (N)的属性对这个数组进行排序。该对象如下所示： struct OBJ { int N; //sort array of OBJ with respect to N OB *c; //OB is another struct } 数组的大小很小，大约有512个元素，但每个元素的大小都很大，因此我无法将数组复制到共享内存中。对这个数组进行排序的最简单、最“好”的方法是什么？我不需要一个复杂的算法，它需要很多时间来实现(因为数组中的元素数量很少)，我只需要一个简单的算法。注意:我读过一些关于使用GPU的排序算法的论文，但只

浏览 2提问于2011-03-13得票数 10

2回答

我读到Huffman编码在GPU上不起作用，但本文声称并非如此

cuda、parallel-processing、gpu、nvidia

我在几个地方读到，在GPU中构建霍夫曼编码器效率不是很高，因为算法是顺序的。但本文提供了一种可能的实现，并声称它比CPU 更快。如果论文的结果不正确，请指教

浏览 0提问于2012-02-05得票数 1

1回答

GPU上的OpenCV快速检测器

c++、performance、opencv

我正在运行以下代码： cv::Ptr<cv::FastFeatureDetector> fastDetector = cv::FastFeatureDetector::create(100, true, 2); cv::Ptr<cv::cuda::FastFeatureDetector> gpuFastDetector = cv::cuda::FastFeatureDetector::create(100, true, 2); std::vector<cv::KeyPoint> keypoints; std::vector<cv::KeyPoint&

浏览 6提问于2016-10-07得票数 2

回答已采纳

1回答

如何处理跨越不同尺度的短障碍碰撞？

collision-detection、path-finding

3D RPG中的朴素碰撞系统可能会导致暴徒被困在几何图形上，他们会现实地跨过去，这对许多玩家来说是一个很大的麻烦。对于大多数游戏来说，解决方案相当简单:禁用小对象上的冲突，因为从游戏的角度来看，它们并不重要。这是可行的，但假设暴徒的大小大致相同。引入更多的“大小类别”，从侏儒到龙，将需要仔细管理碰撞列表，并可能打破奇怪的角落案例。这同样适用于3D游戏中的导航网格，这些游戏都是机械的2D游戏。因此，我很好奇如何建立一个自适应系统来自动处理碰撞。约束和注意事项：我们可以假设所有相关的几何都是静态的，允许使用加速度结构。小物体对撞机组装成更大的结构，应该作为一个大的结构来碰撞。解决方案应

浏览 0提问于2021-10-20得票数 0

3回答

为什么朴素的字符串搜索算法更快？

string、algorithm、search

我正在测试这个网站上的字符串搜索算法：。测试文本是1个GByte大小的DNA碱基的随机序列。测试模式是随机大小(最大1kb)的随机序列的列表。测试系统为AMD Phenom II Windows955，GHz为3.2，内存为4 GB，Windows7为64位。代码用C编写，并使用带有-O3标志的MinGW编译。朴素搜索算法对于短模式需要4秒，对于1kB模式需要8秒。确定性有限状态机对于短模式需要2秒，对于1kB模式需要4秒。Boyer-Moore算法对于非常短的模式需要4秒，对于短模式大约需要1/2秒，对于1kB的模式大约需要2秒。其余算法的性能比朴素搜索算法差。如何才能使朴素搜索算法搜索

浏览 2提问于2013-11-16得票数 3

1回答

硬件实现算法和软件实现算法的区别？

encryption、implementation、cryptographic-hardware

在有关密码学的文章中，我看到了硬件实现和软件实现这两个词。我很想知道他们之间有什么区别？换句话说，即使在计算机中，当我编写一个程序来执行密码算法时，我最终还是在CPU上运行它。那么为什么我不能称之为硬件实现呢？简单处理器和密码处理器(协处理器)有什么区别？

浏览 0提问于2016-01-01得票数 7

回答已采纳

1回答

加快DataFrame中列的排序

python、pandas、numba、rank

我有一个包含浮点值的dataframe。需要通过对所有这些值的排序来生成新的dataframe。例子如下： import pandas as pd import numpy as np import numba as nb @nb.njit('int32[:,:](float64[:,:])', parallel=True) def fastRanks(df): n, m = df.shape res = np.empty((n, m), dtype=np.int32) for col in nb.prange(m): dfCol =

浏览 3提问于2022-09-28得票数 1

2回答

为什么GPU比CPU更强大

cpu、gpu

GPU如何比CPU更快？我读过一些文章，谈到GPU在破解密码方面比CPU快得多。如果是这样的话，为什么不能用与GPU相同的方式设计CPU，使其速度更快呢？

浏览 0提问于2011-06-22得票数 74

回答已采纳

3回答

应该使用GPU吗？

c、cuda

如果我使用GPU，我如何知道我的串行代码是否会运行得更快？我知道这取决于很多事情...也就是说，如果代码可以在SMID fation中并行，以及所有这些东西...但是，我应该考虑什么因素才能“确定”我将获得速度？算法应该是令人尴尬的并行吗？因此，如果算法的某些部分不能并行化，我不会费心去尝试GPU？我应该考虑样本输入需要多少内存吗？串行代码的“规格”是什么使它在GPU上运行得更快？一个复杂的算法能在GPU上获得速度吗？我不想浪费时间和尝试在GPU上编写我的算法，我100%确定速度会得到提高……那是我的问题..。我认为我的算法可以在GPU上并行化。值得一试吗？

浏览 0提问于2011-04-14得票数 1

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

GPU上的pytorch排序/中值与CPU上的numpy一样慢。我是不是遗漏了什么？

相关·内容

对于较大的交叉或外部产品，NumPy比PyTorch更快

将gpu.js用于元胞自动机

PyTorch方法中使用了哪些类型的优化？

当一个矩阵非常宽时实现矩阵乘法的有效方法？

利用GPU并行化的转换函数

为什么与GPU相比，具有较短倒排列表的查询在CPU上执行得更好

TfIdfVectorizer在GPU上速度较慢(cuml与sklearn实现)

并行合并排序在膝上型计算机上工作，但在GPU和Xeon上不工作

GPU上的Pytorch转换，是否值得使用大输入数据？

翻译用于CPU编译的OpenCl代码

Tensorflow在GPU上比CPU上慢

在CUDA上什么是好的排序算法？

我读到Huffman编码在GPU上不起作用，但本文声称并非如此

GPU上的OpenCV快速检测器

如何处理跨越不同尺度的短障碍碰撞？

为什么朴素的字符串搜索算法更快？

硬件实现算法和软件实现算法的区别？

加快DataFrame中列的排序

为什么GPU比CPU更强大

应该使用GPU吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐