加速嵌套循环中的浮点数计算(如果可能，使用CUDA )

文章/答案/技术大牛

发布

1回答

python、parallel-processing

有没有可能在Python中加速下面的嵌套循环(可能使用CUDA或并行进程)？附加到outputList[i]的元素的顺序并不重要。目前，代码需要很长时间才能完成。哪个部分使代码变慢了？

浏览 25提问于2021-11-09得票数 0

回答已采纳

1回答

使用CUDA进行令人难堪的并行计算，如何开始？

optimization、parallel-processing、cuda

我需要加速我现在使用PyLab进行的许多计算。我想过使用CUDA。整个计算单元(A)包括进行几个(数千)完全独立的较小计算(B)。它们中的每一个在初始阶段都需要进行40-41次独立的、甚至更小的计算(C)。所以并行编程应该真的很有帮助。对于PyLab，整个过程(A)需要20分钟，(B)大约需要十分之一秒。作为这个领域的初学者，我的</em

浏览 0提问于2012-09-03得票数 0

回答已采纳

4回答

如何使用CUDA通过密集向量积加速稀疏矩阵，目前是通过scipy.sparse.csc_matrix.dot实现的？

python、matrix、cuda、gpu、sparse-matrix

我的最终目标是在Python中加速矩阵向量乘积的计算，可能是通过使用支持CUDA的GPU。矩阵A约为15k x 15k且稀疏(密度约为0.05)，向量x为15k个元素且密集，我正在计算Ax。我必须多次执行此计算，因此使其尽可能快将是理想的。我目前的非GPU“优化”是将A表示为scipy.sparse.csc_matrix对象，然后简单地计算A.d

浏览 9提问于2018-02-28得票数 6

1回答

用于路径跟踪的CUDA/OpenCL与OpenGL计算着色器

compute-shader、opencl、cuda

所以我想实现一个路径跟踪器，我混淆了GPGPU计算还是使用OpenGL的计算着色器。我已经使用GL的计算着色器实现了一个射线追踪器。 CUDA/OpenCL与CS的主要区别是什么？如果我喜欢一个而不是另一个，是否有可能看到一个显著的加速？我已经知道的一些主要区别是，使用CS将使其独立于供应商，这样我就可以在拥有Nvid

浏览 0提问于2018-02-15得票数 2

回答已采纳

1回答

Tensorflow需要GPU和CUDNN吗？

python、tensorflow、machine-learning、keras、cudnn

Tensorflow可以在没有安装任何CPU的情况下在GPU上工作。1).

浏览 9提问于2022-08-27得票数 0

回答已采纳

1回答

Cuda/Optix是否提供硬件加速的最小/最大光线投射？

cuda、nvidia、raycasting、optix

我想知道是否有可能在Cuda或Optix中加速计算3D体积中从一点到另一点的线/射线的最小值和最大值。如果没有，在Nvidia GPU上有什么特殊的硬件可以加速这个功能(特别是在Volta GPU或Tesla K80上)？

浏览 70提问于2021-04-07得票数 0

回答已采纳

3回答

在没有NVIDIA GPU的情况下使用CUDA？

python、deep-learning、cuda、gpu

没有NVIDIA显卡，我们可以使用SimpleTransformers和FineTune他们预先训练好的模型吗？"'use_cuda' set to True when cuda is unavailable." 285 "Make sure CUDA is availableor set use_cuda=False."ValueError: 'use_cuda

浏览 0提问于2021-07-21得票数 1

1回答

如果驱动程序可用，我们可以设置FFMPEG硬件加速吗？

ffmpeg、hardware-acceleration

我需要设置ffmpeg代码的方式，如果硬件加速是可用的，它应该使用它，否则与可用的默认驱动程序。我正在使用一个屏幕记录软件，它是用可视化c++编程的。所以我需要实现硬件加速，如果它安装的计算机有GPU，否则去CPU。ffmpeg -hwaccel cuda -f gdigrab -framerate 24 -probesize 42M -i desktop -p

浏览 9提问于2020-11-23得票数 1

回答已采纳

1回答

并行射线追踪器:非常低的加速比

performance、cuda、gpgpu

我使用(py)CUDA编写了一个射线追踪器，并且获得了非常低的加速比；例如，在1000x1000图像中，GPU并行化代码仅比在CPU中执行的顺序代码快4倍。对于每一条射线，我必须解决5个方程(射线追踪器使用描述的过程生成黑洞图像)，所以我的设置如下:每条射线在一个单独的块中计算，其中5个线程使用共享内存计算方程。代码很长，很难在这么短的问题中解释，但是您可以在中看

浏览 3提问于2016-08-26得票数 1

5回答

CUDA vs Direct X 10用于并行数学。你对此有什么想法吗？

cuda

CUDA vs Direct X 10用于并行数学。你对此有什么想法吗？

浏览 0提问于2009-03-09得票数 0

回答已采纳

1回答

Java中面向元素操作的矩阵库和for循环

java、matrix

在大小为800×300元素的浮点数组上。如果我用矩阵库(JAMA、EJML等)来完成这个工作，我会得到多少加速(如果有的话)。仅仅在for循环中执行元素级操作？For循环看起来更吸引人，因为我的方程可能变得有点复杂，对于循环来说，这意味着我可以保留我所有的方程--用简单的旧的注解法。因为java不支持操作符重载，所以使用矩阵库就不那么简单了。所以，我只想使用一个矩阵库，如

浏览 1提问于2013-08-03得票数 0

回答已采纳

3回答

Matlab CUDA基础实验

matlab、cuda

现在，我编写了一个简单的蒙特卡罗算法来计算PI。,2); countr=countr+1; endend有人能帮我吗？谢谢。i=1:n,1024) gpu

浏览 7提问于2013-04-13得票数 3

回答已采纳

3回答

Cuda GPU优化

cuda、gpu、acceleration

我读到，当你使用NVIDIA GPU而不是CPU时，在某些问题上有100倍的加速。如果可能，请说明问题和加速因子，并提供论文链接。

浏览 1提问于2010-03-11得票数 1

1回答

Visual 2010中的CUDA* OpenCV - C++链接错误*

c++、visual-studio-2010、opencv、cuda

我正在使用VisualStudio2010环境，并试图在CUDA的帮助下加速我以前编写的一些OpenCV算法。我有一个单独的.cu文件，在Visual中可以单独编译，我的.cpp文件也可以单独编译。但是当我试图构建包含这两个文件的解决方案时，我会得到一个错误，如下所示： Com

浏览 1提问于2013-05-28得票数 0

2回答

如何在ATI上开发CUDA应用程序，以便稍后在NVIDIA上执行

cuda、opencl

我的计算机有ATI显卡，但我需要编写CUDA中已有的算法来加速此过程。这有可能吗？如果是，有没有人有任何链接或教程，从设置我的IDE到编写简单的图像处理或传递图像。我也考虑过OpenCL，但我还没有找到任何关于如何使用它的信息。

浏览 1提问于2011-12-02得票数 0

回答已采纳

6回答

将C#方法转换为C++方法

c#、c++、interop、cuda、gpgpu

我正在探索将常见的C#代码构造映射到GPU代码的各种选项，以便在C++上运行。系统的结构如下(箭头表示方法调用)：GPU库中的方法可能如下所示： public static void Map<T>(然而，我希望它所做的是调用C++库，并让它在GPU上运行方法。这需要以某种方式将函数转换为C++代码。这个是可能的吗？更详细地说，<e

浏览 0提问于2008-10-13得票数 3

4回答

采用opencv for Android的CUDA

android、opencv、cuda

可以在Android-Opencv中构建基于CUDA的opencv代码吗？有人试过吗？

浏览 1提问于2013-07-09得票数 9

回答已采纳

2回答

无法安装加速库(GPU)

linux、cuda、makefile、libsvm

我正在尝试安装这个网站上的cuda加速库：为了完成上述安装，您可能需要安装一些额外的数据包。有关详情，请参阅网页。将此文件夹复制到“/NVIDIA_GPU_计算所_SDK/C&

浏览 2提问于2013-08-30得票数 0

回答已采纳

5回答

我能/应该在GPU上运行统计应用程序的这段代码吗？

c++、c、cuda、parallel-processing、gpu

几种方法在嵌套循环中对数组执行不同但独立的计算，例如： noOfOccurrences++; }} 当前的应用程序是用C#编写的，运行在Intel上，需要几个小时才能完成

浏览 10提问于2012-11-09得票数 43

回答已采纳

2回答

用Python加速数学计算

python、arrays、math、numpy、cython

主要的瓶颈实际上是在numpy数组上运行的简单的单行计算，例如：(宝洁这是浮标和v_dt -大约500个长的浮点数数组)问题是，这个小函数(我有几个类似的函数)在一个循环中每次重复调用大约500次，每次循环运行大约100次。所以这一行突然给我的运行时增加了20分钟

浏览 1提问于2015-07-30得票数 3

回答已采纳

点击加载更多