为什么启动Numba cuda内核可以处理多达640个线程，但在有足够的GPU可用内存的情况下却无法运行641个线程？

、、

我正在使用NUMBA和cupy来执行GPU编码。现在，我已将代码从V100 NVIDIA卡转换为A100，但随后收到以下警告： NumbaPerformanceWarning:网格大小(27) <2* SM计数(216)可能会导致GPU由于占用低而利用率不足。 NumbaPerformanceWarning: CUDA内核中使用的主机数组将导致设备复制开销。有人知道这两条警告的真正含义吗？那么我应该如何改进我的代码呢？

浏览 6提问于2021-12-09得票数 1

1回答

当同时使用numba.cuda和CuPy时，为什么从GPU传输数据的速度这么慢？

、、、

我阅读了cupy文档中关于如何同时使用cupy和numba以及如何使用cuda加速代码的示例。我编写了一个类似的代码来测试它： import cupy from numba import cuda import numpy as np import time @cuda.jit('void(float32[:], float32[:], float32[:])') def add(x, y, out): start = cuda.grid(1) stride = cuda.gridsize(1) for i in range(

浏览 3提问于2020-07-09得票数 0

回答已采纳

1回答

为什么numba cuda在几次召回之后跑得很慢？

、、、、

我在实验如何使用numba内部的cuda。然而，我遇到了一些与我期望不同的事情。这是我的密码 from numba import cuda @cuda.jit def matmul(A, B, C): """Perform square matrix multiplication of C = A * B """ d=cuda.local.array((3,3),dtype=numba.float64) i, j = cuda.grid(2) if i < C.shape[0] and j < C.shape[1]: tmp

浏览 4提问于2018-09-10得票数 3

回答已采纳

1回答

预编译numba cuda内核(非jit)

、、、、

你好，我正在使用numba编写一些带有@cuda.jit装饰器的内核。我有8个CPU线程，每个线程在2个GPU设备中的一个上调用一个内核。(具体为cpu_idx % len(cuda.gpus)) 我相信每个CPU线程都在编译内核，相对于内核处理整个图像所需的时间，这会占用很多时间。理想情况下，它应该只编译一次，以供所有CPU线程使用。但是我不能在使用multiprocessing.Pool分支之前初始化任何cuda gpu代码，因为cuda不喜欢那样。那么有没有办法预编译cuda内核呢？我不想要即时编译

浏览 19提问于2020-04-09得票数 0

1回答

可以在单个CUDA内核中启动的最大线程数

、、

我对在费米GPU中可以启动的最大线程数感到困惑。我的GTX 570设备查询如下。 Maximum number of threads per block: 1024 Maximum sizes of each dimension of a block: 1024 x 1024 x 64 Maximum sizes of each dimension of a grid: 65535 x 65535 x 65535 根据我的理解，我认为上述声明如下：作为一个CUDA内核，我们最多可以启动65536块。每个启动的块可以包含多达1024个线程。因此，

浏览 3提问于2012-08-22得票数 14

回答已采纳

1回答

是否可以调用间接调用另一个cuda.jit函数的cuda.jit函数？

、、、

我需要能够调用GPU函数，而GPU函数本身又间接调用另一个GPU函数： from numba import cuda, jit import numpy as np # GPU function @cuda.jit(device = True) def euclidean_distance_gpu(input_vec, weight, diffs): i = cuda.grid(1) if i < input_vec.shape[0]: diffs[i] = (input_vec[i] - weight[i]) ** 2 @jit # CPU function def

浏览 0提问于2020-06-22得票数 2

2回答

运行并行CUDA任务

、

我将使用CUDA技术创建支持GPU的程序。它应该是C# Emgu或C++ Cuda工具包(尚未决定)。我需要使用所有的GPU能力(我有16个GPU核心的卡)。如何并行运行16个任务？

浏览 1提问于2012-09-04得票数 0

回答已采纳

1回答

使用numba和cupy在单个GPU上并行运行多个GPU函数

、、、

我想知道在相同的代码中并行运行多个cupy函数或numba内核是否可能甚至是安全的。目前我的代码是这样做的： for i in range(int(nLoop)): #shuffle the array cp.random.shuffle(temp) temp1,temp2 = cp.split(temp,2) #configure number of blocks for cuda kernels blocks = 0 Ti = cp.zeros(len(temp1)) if(le

浏览 5提问于2022-05-17得票数 0

回答已采纳

1回答

、、、

我有一个Numba cuda内核，我可以在RTX 3090上启动多达640个线程和64个块。如果我尝试使用641个线程，它会失败，并显示以下信息： Traceback (most recent call last): File "/home/stark/Work/mmr6/mmr/algos/company_analysis/_analysis_gpu_backup.py", line 905, in <module> load() File "/home/stark/Work/mmr6/mmr/algos/company_analysi

浏览 104提问于2021-08-04得票数 1

回答已采纳

2回答

报告CUDA加速的正确方法

我想比较在CPU上运行的串行程序和在GPU上运行的CUDA程序的性能。但我不确定如何公平地比较性能。例如，如果我将旧CPU和新GPU的性能进行比较，那么我将获得巨大的加速比。另一个问题:如何将我的CUDA程序与论文中报告的另一个CUDA程序进行比较(两者都运行在不同的GPU上，并且我无法访问源代码)。

浏览 0提问于2012-09-26得票数 2

回答已采纳

1回答

为什么@cuda.jit python程序比它的cuda更快？

、、、、

我运行C和Python代码，在GPU上添加两个数组。但是我发现Python代码比C代码快100倍。这是我的密码 @cuda.jit Python import sys import time import numpy as np from numba import cuda @cuda.jit('void(float32[:], float32[:], float32[:])') def cu_add(a,b,c): bx = cuda.blockIdx.x bw = cuda.blockDim.x tx = cuda.threadIdx.x

浏览 1提问于2017-08-13得票数 1

回答已采纳

1回答

如何在Numba启动的cuda内核结束前停止/取消它？

、、、、

我用Python/Numba编写了一个使用几个cuda GPU的模拟程序。每个进程都是使用单独的cuda上下文从不同的进程启动的。这个模拟运行一个很长的循环，最后将结果报告给父进程，父进程存储了到目前为止最好的结果，并且这个过程一直在进行。当GPU / process完成其内核并报告一个新的最佳结果时，我喜欢在其他进程/GPU上终止内核执行，这样它们就可以获得这个新的最佳结果并迭代它，而不是等待它们完成。每次执行都需要30分钟的时间，所以如果我可以杀死一个刚开始的，然后再使用更好的数据，这就节省了我很多时间。我似乎找不到一种方法来阻止一个已启动的cuda内核。，可以这样做吗？我用的是N

浏览 2提问于2020-12-02得票数 0

回答已采纳

1回答

在Python内核中使用cublas

、、

我有一个简单的矩阵乘法码，如下所示： TPB = 32 @cuda.jit('void(double[:, :], double[:,:], double[:, :])', device = True) def GPU_Mat2(A, B, C): bx = cuda.blockIdx.x by = cuda.blockIdx.y tx = cuda.threadIdx.x ty = cuda.threadIdx.y ROW = bx * TPB + tx COL = by * TPB + ty res = 0

浏览 2提问于2017-08-01得票数 1

回答已采纳

1回答

cuFFT流的并发性

、、、

因此，我使用cuFFT与CUDA流特性相结合。我遇到的问题是，我似乎无法使cuFFT内核完全并发运行。以下是我从nvvp获得的结果。每个流都对128x128大小的128幅图像运行2D批处理FFT的内核。我设置了3个流运行3个独立的FFT批处理计划。从图中可以看出，一些内存副本(黄色条)与一些内核计算(紫色、棕色和粉色条)并行。但是内核的运行完全不同步。正如您注意到的，每个内核都严格遵循彼此。下面是我用于将内存复制到设备和内核启动的代码。 for (unsigned int j = 0; j < NUM_IMAGES; j++ ) { gpuErrchk

浏览 3提问于2016-04-15得票数 2

回答已采纳

1回答

用cuda.jit装饰器替换njit装饰器

、、

我有一个Nvidia图形处理器，下载了CUDA，并且正在尝试使用它。假设我有这样的代码： #@cuda.jit (Attempted fix #1) #@cuda.jit(device = True) (Attempted fix #2) #@cuda.jit(int32(int32,int32)) (Attempted fix #3) @njit def product(rho, theta): x = rho * (theta) return(x) a = product(1,2) print(a) 我如何让它使用cuda.jit装饰器而不是njit？我尝试过的东西

浏览 21提问于2019-05-04得票数 0

1回答

等待任何设备已经完成在数据自动化系统？

我有一个CUDA内核，我想运行多个GPU。在每个GPU上，它执行一个搜索任务，所以我想在每个GPU上启动它，然后在主机代码中等待，直到任何GPU返回(指示它找到了它正在寻找的东西)。我知道cudaDeviceSynchronize()，但这会阻塞直到当前GPU完成。有什么东西可以让我阻止直到任何一个不同的GPU完成？

浏览 4提问于2020-11-24得票数 1

回答已采纳

1回答

使用非默认GPU时从cudaLaunchKernel返回的资源句柄无效

我有一个CUDA程序，运行时没有错误时，留在默认的GPU上运行。当我在main()函数的第一行中将设备设置为GPU #1时，没有立即出错(这并不奇怪，因为nvidia-smi确认我在机器中有8个GPU)。很久以后，当程序试图启动内核时，会遇到一个invalid resouce handle(400)错误。我试着想出一个最小的可行示例，但当然下面的代码运行得很好。不过，它说明了这个概念，所以我把它包括在内。我真正的代码使用多个CPU线程，每个线程都启动自己的内核. #include <iostream> #include <stdio.h> #include <c

浏览 0提问于2019-05-14得票数 0

回答已采纳

2回答

cuda麻木三维循环性能差

、、、、

我正在尝试建立一个3D循环来完成任务。 C(i,j,k) = A(i,j,k) + B(i,j,k) 在我的GPU上使用Python。这是我的GPU：我所看到的/与之比较的来源是：有可能我已经导入了比必要的更多的模块。这是我的密码： import numpy as np import numbapro import numba import math from timeit import default_timer as timer from numbapro import cuda from numba import * @autojit def myAdd(a, b):

浏览 0提问于2015-01-02得票数 5

回答已采纳

1回答

NVVP和计数器报告的时间差

我一直在运行CUDA程序的内核。我观察到GPU计数器和NVVP报告的内核执行时间有相当大的差异。为什么通常会观察到这样的差异？

浏览 0提问于2012-09-19得票数 0

回答已采纳

1回答

启动GPU源代码(cuda内核)未完成后，CPU是否有可能进行上下文切换？

、、、

基本上，在CPU和GPU的通信中，如果一个运行在CPU上的进程启动了一个cuda内核，如果它不依赖于cuda内核的结果，那么进程仍然可以发出它的代码。但是，在CPU上运行的进程是否有可能在启动未完成的cuda内核后进行上下文切换？如果可能，内部会发生什么？

浏览 44提问于2018-01-28得票数 0

回答已采纳

2回答

从多个进程并发执行GPU内核

、、、、

我有一个想要在多个进程之间共享单个GPU的应用程序。也就是说，这些进程中的每一个都会创建自己的CUDA或OpenCL上下文，目标是相同的GPU。根据费米怀特paper1的说法，应用程序级别的上下文切换不到25微秒，但启动在GPU上启动时实际上是序列化的--因此费米不能很好地解决这一问题。根据开普尔白paper2的说法，有一种叫做Hyper-Q的东西，它允许从多个CUDA流、MPI进程或一个进程内的线程同时进行多达32个连接。我的问题是:有没有人在开普勒GPU上尝试过，并验证了它的内核在从不同的进程调度时是并发运行的？这只是一个CUDA功能，或者它也可以在Nvidia GPU上与OpenCL一

浏览 0提问于2012-10-02得票数 9

回答已采纳

1回答

当在CUDA GPU上运行Numba代码时，我注意到我的一个CPU核心保持在100%。这是否限制了性能？

、、、、

我有一个计算紧张的测试代码，我使用Numba在GPU上运行它。我注意到，当它在运行时，我的一个CPU核心达到100%，并且一直保持在那里。GPU似乎也是100%。你可以在下面的截图中看到这两种情况。我的基准代码如下： from numba import * import numpy as np from numba import cuda import time def benchmark(): input_list = np.random.randint(10, size=3200000).astype(np.intp) output_list = np.ze

浏览 1提问于2020-07-03得票数 1

回答已采纳

2回答

如何管理CUDA内存？

、、

当我运行只分配少量全局内存(低于20 M)的CUDA程序时，我得到了一个“内存不足”错误。(从其他人的帖子中，我认为问题与内存碎片有关)我试图理解这个问题，并意识到我有几个有关CUDA内存管理的问题。在CUDA中是否存在虚拟内存的概念?如果只允许一个内核在CUDA上同时运行，在其终止后，它所使用或分配的所有内存会被释放吗？如果没有，这些内存何时释放？如果允许多个内核在CUDA上运行，如何确保它们使用的内存不重叠？有人能帮我回答这些问题吗？谢谢编辑1:操作系统: x86_64 GNU/Linux版本: 4.0设备: Geforce 200，它是附在机器上的GPUS之一，我不认为它是一个显示

浏览 4提问于2011-12-30得票数 27

回答已采纳

1回答

使用Python和numba的CUDA内核中的数组

、、

我目前正在编写可以使用GPU进行高度并行化的代码。我的代码结构基本上如下所示：创建两个数组，让我们将它们称为长度N (CPU)的A和B。执行最终返回标量的NxN计算。这些计算只依赖于A和B，因此可以并行化。(GPU) 将所有这些标量收集到一个列表中，并取最小的标量。(CPU) 用这个标量修改A和B (CPU) 回到第二步，重复，直到满足某一条件。大多数示例都非常具有说明性，但它们似乎都是这样工作的:在CPU上执行代码的主要部分，并且只在GPU上执行中间矩阵乘法等等。特别是，主机通常知道内核将要使用的所有变量。对我来说，反之亦然，我希望在GPU上执行代码的

浏览 3提问于2015-10-30得票数 1

回答已采纳

2回答

GPU/CUDA核心是SIMD核吗？

、、、

我们来看看。上面写着：第一个基于费米的GPU，实现了30亿个晶体管，功能多达512 CUDA核心。CUDA核心为线程执行每个时钟的浮点数或整数指令。512个CUDA核心被组织成16个SMs，每个核心32个。 ..。每个CUDA处理器都有一个完全流水线的整数算术逻辑单元(ALU)和浮点单元(FPU)。 ..。在费米，新设计的整数ALU支持所有指令的完全32位精度，符合标准编程语言的要求。整数ALU也被优化，以有效地支持64位和扩展的精度操作.V 据我所知，也不清楚的是，GPU在所谓的翘曲中执行线程，每个翘曲由32个线程组成。每个翘曲只分配给一个核心(这是真的吗？)这是否意味着，单个

浏览 7提问于2015-02-02得票数 13

回答已采纳

1回答

在单个GPU上使用多个主机线程

、、、

现在我用ROS开发了一个CUDA项目。有两个节点对应于两个主机线程，它们需要同时启动两个不同的CUDA内核。所以我想知道：如果我不使用CUDA Stream，单个GPU可以由两个主机线程并发调用吗？(假设GPU资源足以同时启动这两个内核)。如果没有，为什么？如果我不使用cuda流，这两个内核是否绑定到一个或两个CUDA上下文中？如果我使用CUDA流，这两个内核是否绑定到一个或两个CUDA上下文中？如果它们处于两个不同的CUDA上下文中，GPU如何处理它们的启动/操作，因为它们同时被调用？我现在使用的RTX 3090与CUDA 11.0，和i9-1090

浏览 2提问于2021-01-14得票数 0

3回答

让图形处理器在numba.cuda.close()之后再次可用？

、、

所以当我先运行cuda.select_device(0)，然后运行cuda.close()。Pytorch不能再次访问图形处理器，我知道有办法让PyTorch可以再次使用图形处理器，而不必重新启动内核。但我忘了怎么做了。还有人知道吗？ from numba import cuda as cu import torch # random tensor a=torch.rand(100,100) #tensor can be loaded onto the gpu() a.cuda() device = cu.get_current_device() device.reset() #

浏览 1提问于2020-01-30得票数 10

1回答

从@cuda.jit numba函数中调用其他函数

、、、

我有一个函数，其中添加了@cuda.jit装饰器。 @cuda.jit def foo(x): bar(x[0]) bar(x[1]) bar(x[2]) def bar(x): # Some routine 我不想把条形复制到foo的主体中，因为这会使代码变得笨拙和丑陋。 Numba的cuda.jit是如何处理这个问题的？函数在编译过程中是否内联？酒吧需要放弃吗？如果是这样的话，它将调用其他线程，而我发现这对于仅超过3个元素的计算来说是过分的. 我还认为，cuda内核也不能调用其他cuda内核。我是numba/cuda的新手，所以如果这里的理解有什么根本错误的话，

浏览 3提问于2019-05-06得票数 4

回答已采纳

1回答

开普勒上的CUDA 5.x，动态内核执行和最大递归“深度”

在“数据自动化系统5”方案编制指南中，以下内容如下：发射可能继续深入到24代，但这种深度通常会受到GPU上现有资源的限制。我的问题如下： GPU上的CUDA运行时是否保证总能达到24深度，在某些情况下甚至可能超过24 (案例A)？或者，它们是否意味着24是绝对的最大限制，并且这个数字可能在运行时确实无法达到(案例B)？如果是B，那么当在GPU上启动内核而没有足够的资源时会发生什么呢？发射失败了吗？(如果是这样的话，那就奇怪了！) 我计划编写一个CUDA程序，我想从开普勒架构中获益。我的算法绝对需要15-19级别的函数递归(递归级别绑定到我的数据结构)。参考文献：

浏览 2提问于2013-01-13得票数 1

1回答

numba.typeinfer.TypingError:在NVIDIA上使用child_launch动态并行( Anaconda )的非类型化全局名称“child_launch”

、、

我的密码在这里： import numpy as np from numbapro import cuda @cuda.autojit def child_launch(data): data[cuda.threadIdx.x] = data[cuda.threadIdx.x] + 100 @cuda.autojit def parent_launch(data): data[cuda.threadIdx.x] = cuda.threadIdx.x cuda.syncthreads() if cuda.threadIdx.x == 0: c

浏览 3提问于2014-10-13得票数 1

1回答

为什么我不能用numba ()得到正确的一维数组和？

、、、

我试着和numba一起使用cuda python。代码是计算1D数组的和，如下所示，但我不知道如何获得一个值结果，而不是三个值。 python3.5与numba + CUDA8.0 import os,sys,time import pandas as pd import numpy as np from numba import cuda, float32 os.environ['NUMBAPRO_NVVM']=r'D:\NVIDIA GPU Computing Toolkit\CUDA\v8.0\nvvm\bin\nvvm64_31_0.dll' os.e

浏览 1提问于2017-03-29得票数 4

回答已采纳

3回答

关于库达的问题

、、

我正在做一个关于GPU编程的研究，想了解更多关于CUDA的知识。我已经读了很多关于它的文章(来自维基百科、Nvidia和其他参考资料)，但是我仍然有一些问题：对体系结构的以下描述准确吗？：GPU有多处理器，每个多处理器都有流处理器，每个流处理器可以同时运行线程块。所有引用都指出要在一个块内创建的最小线程数为32.为什么会这样呢？我有一张ATI Radeon视频卡。而且我能够编译一个简单的CUDA程序而不需要模拟模式！我认为我只能在支持的Nvidia VGA上编译和运行CUDA程序。请有人解释一下。

浏览 4提问于2009-12-30得票数 2

1回答

并行运行多个流(而不是线程/块)

我有一个内核，我想从配置"1块x32线程“开始。为了增加并行性，我想启动几个流，而不是运行比"1块x32线程“更大的”工作包“。我想在一个数据来自网络的程序中使用GPU。我不想等到一个更大的“工作包”出现。守则是这样的： Thread(i=0..14) { - copy data Host -> GPU [cudaMemcpyAsync(.., stream i)] - run kernel(stream i) - copy data GPU -> Host [cudaMemcpyAsync(.., stream i)] } 真正的代码要复杂得多，但我想

浏览 1提问于2013-08-21得票数 0

1回答

为什么在CUDA中启动32个线程的倍数？

、

我上了一个CUDA并行编程课程，我看到了许多CUDA线程配置的例子，在这种情况下，将所需的线程数集合到最接近32的倍数是很常见的。我知道线程被分组为翘曲，如果您启动1000个线程，GPU会将其循环到1024个，那么为什么要显式地这样做呢？

浏览 1提问于2014-10-28得票数 7

回答已采纳

1回答

Numba CUDA `vectorize`和`reduce`装饰器比预期慢

、、、、

我已经使用Numba包测试了一些基本的CUDA函数。我的主要目标是在图形处理器上实现一个算法。加速算法是可能的，其中一个主要步骤可以总结为下面的伪函数 def dummy(arr1, arr2): return (arr1 * arr2).sum() / ((arr2**2).sum() + eps) 此函数在CPU上运行得相当快，但我希望将所有内容都保留在GPU上，以避免主机<->设备复制。为了比较不同计算的速度，我编写了一组简短的函数： import numpy as np from numba import njit, jit import numba import

浏览 18提问于2017-02-03得票数 3

1回答

Numbapro cuda python在gpu线程寄存器中定义数组

、、、、

我知道如何使用np.array或np.zeros或np.empty(shape, dtype)在主机中创建全局设备函数，然后使用cuda.to_device复制。另外，还可以将共享数组声明为cuda.shared.array(shape, dtype)。但是如何在gpu函数中特定线程的寄存器中创建一个恒定大小的数组。我试过cuda.device_array或np.array，但都没有用。我只想在线程里做这个- x = array(CONSTANT, int32) # should make x for each thread

浏览 5提问于2014-11-28得票数 0

回答已采纳

3回答

driver.Context.synchronize() - -还需要考虑什么-a清理操作失败

、

我这里有代码(根据答案修改)。信息 32字节堆栈帧，0字节溢出存储，0字节溢出负载 ptxas信息:使用46寄存器，120字节cmem，176个字节cmem2，76个字节cmem16 我不知道还需要考虑什么，才能使它适用于"numPointsRs“和"numPointsRp”的不同组合例如，当我使用Rs=10000运行代码时，使用Rp=100000运行block=(128,1,1)，运行grid=(200,1)就可以了。我的计算： 46 registers*128threads=5888寄存器。我的卡有限制32768寄存器，所以32768/5888=5 +一些

浏览 10提问于2012-09-04得票数 5

回答已采纳

1回答

Numba GPU支持具有计算能力2.1的NVIDIA

、、

我似乎无法理解numba对cuda支持的要求。在这里()，它说我需要高于2.0的计算能力，我有一个NVIDIA GeForce 820米，它有2.1，所以我认为这没问题，但这里()它说我需要3.0或更高，甚至它是停止了。另外，当我从命令提示符运行"nvcc -version“时， nvcc: NVIDIA (注册商标) Cuda编译器驱动程序版权(c) 2005-2022 NVIDIA公司建立在Tue_May__3_19:00:59_Pacific_Daylight_Time_2022 Cuda编译工具上，版本11.7，V11.7.64构建cuda_11.7.r11.7/编译器.312

浏览 3提问于2022-06-01得票数 0

回答已采纳

2回答

库达:在继续前进之前，有没有办法强迫每一行都完成？

、

我是新的并行编程，我感谢您的帮助，了解它如何工作。这是一个人为的例子，在这个例子中，我希望一个运算的结果在矩阵的每个单元格中是50。结果取决于index+1数组中的一个值。在并行编程中，这不是很好，因为值不是按顺序计算的，而且每几个单元格我都得到不正确的结果。我的创可贴是将函数分成多个，但我认为应该有一个更好的解决方案，尽管我不太清楚该搜索什么。谢谢。 code代码： #include "cuda_runtime.h" #include "device_launch_parameters.h" #include <stdio.h> #include

浏览 3提问于2014-08-13得票数 0

回答已采纳

1回答

CU_CTX_SCHED_BLOCKING_SYNC使内核同步吗？

、、、

使用CU_CTX_SCHED_BLOCKING_SYNC创建CUDA上下文是否使CUDA内核实际上是同步启动的(即将CPU线程作为正常的CPU启动相同的线程功能)？文件只说明 CU_CTX_SCHED_BLOCKING_SYNC:在等待GPU完成工作时，指示CUDA阻塞同步原语上的CPU线程。但我不确定我是否理解得对。

浏览 0提问于2018-05-24得票数 2

回答已采纳

1回答

RTX2070未能从device:CUDA_ERROR_OUT_OF_MEMORY:内存中分配gpu内存

、

tf 2.0.0-gpu CUDA 10.0 RTX2070super 嗨。我在分配内存方面遇到了问题。内存的初始分配是7GB，如下所示。创建了TensorFlow设备(/job:localhost/TensorFlow:0/task:0/ device :GPU:0和6994 MB内存) 2020-01-11 22:19:22.983048: I tensorflow/stream_executor/platform/default/dso_loader.cc:44]成功地打开了动态库libcudn.so.7 2020-01-11 22:19:23.786225: i tensorflow

浏览 2提问于2020-01-11得票数 0

2回答

如果同时从多个pthread调用CUDA内核，会发生什么情况？

、

我有一个CUDA内核来完成我的繁重工作，但我也有一些繁重的工作需要在CPU中完成(同一数组的两个位置的计算)，我无法在CUDA中编写(因为CUDA线程不同步，所以我需要在一个数组的位置X上执行一个繁重的工作，然后执行zx = yx - yx - 1，其中y是CUDA内核的数组结果，其中每个线程都在这个数组的一个位置上工作，z是存储结果的另一个数组)。所以我在CPU中做这件事。我有几个CPU线程来做CPU端的工作，但每个线程都调用一个CUDA内核来传递一些数据。我的问题是:当多个CPU线程进行GPU调用时，GPU端会发生什么？如果我做一次CUDA内核调用，然后创建多个CPU线程来做CPU端的工

浏览 3提问于2012-10-25得票数 3

回答已采纳

1回答

设备存储器阵列的寿命

、、、

我有一个用numba编写的cuda内核，它处理不适合GPU内存的大型数组。因此，我必须多次调用内核来处理整个数组。内核在循环中被调用，在循环中，在GPU完成计算之后，我将结果复制并聚合回主机数组。我的问题：设备数组和复制到GPU内存中的数组的生存期是多少？它们的价值是否保存在一个内核调用另一个内核中？我是否需要将设备数组定义放入循环(在调用内核之前)，还是在进入循环之前只做一次？我是否需要在代码中手动释放/删除设备数组，还是在程序结束时由CUDA内存管理器来完成？谢谢。

浏览 0提问于2019-01-25得票数 1

1回答

Torch线性模型在GPU上向前传递比CPU慢4倍

、、

我正在使用torch 7编写AWS GPU实例之一。下面的代码基准测试了一个简单的线性模型的前向传递。gpu的执行速度似乎慢了4倍。我做错了什么？ require 'torch'; require 'nn'; cmd = torch.CmdLine() cmd:option("-gpu", 0) -- gpu/cpu cmd:option("-n_in", 100) cmd:option("-n_out", 100) cmd:option("-n_iter", 1000) params = cm

浏览 0提问于2016-06-12得票数 1

回答已采纳

3回答

无法杀死在NVIDIA GPU上运行的坏内核

、、、、

我真的有麻烦了。请帮帮忙。这很紧急。我有一个主机进程，它产生多个主机(CPU)线程(Pthread)。这些线程依次调用CUDA内核。这些CUDA内核是由外部用户编写的。所以它可能是进入无限循环的坏内核。为了克服这个问题，我设置了2分钟的超时时间，这将杀死相应的CPU线程。杀死CPU线程也会杀死运行在GPU上的内核吗？据我所知，它不是这样的。如何杀死当前在GPU中运行的所有线程？编辑:我使用CPU线程调用内核的原因是，服务器有两个Tesla GPU，所以线程会在GPU设备上轮流调度内核。谢谢，Arvind

浏览 0提问于2010-06-01得票数 5

1回答

CUDA内核和流式多处理器计算推理速度

、、、

据我所知，NVIDIA GPU的CUDA内核数量决定了它运行单个深度学习模型的速度。因此，如果我使用NVIDIA TITAN RTX GPU在0.5秒内对一个模型运行推断，该GPU具有72个流多处理器和4608个内核，并且它使用的GPU的最大利用率约为10%，我是否可以假设使用了10%的流多处理器(大约7个)？因此，大约使用了900个CUDA核心？(我基于这个答案：) 因此，如果我降级到具有3000个CUDA内核的较低GPU，理论上它应该仍然能够以相同的0.5秒速度执行推理，对吧？

浏览 2提问于2020-01-17得票数 0

1回答

使设备内存访问与主机线程同步

、、

CUDA内核有没有可能在没有任何主机端调用(例如，cudaDeviceSynchronize)的情况下同步写入设备映射内存？当我运行下面的程序时，内核似乎并没有等待设备映射内存的写入完成后才终止，因为在内核启动后立即检查页面锁定的主机内存并没有显示内存的任何修改(除非插入了延迟或者未注释对cudaDeviceSynchronize的调用)： #include <stdio.h> #include <cuda.h> __global__ void func(int *a, int N) { int idx = threadIdx.x; if (idx

浏览 1提问于2012-12-05得票数 4

回答已采纳

1回答

数据自动化系统中每个SM和每个块的核心数量

随着NVIDIA GPU的发展，每个SM的核心数量发生了变化:在费米中，我们有32颗，但在Maxwell，根据白皮书的数字是128。因此，我的问题如下：创建包含128个线程的块的网格更好吗？这样的代码会运行得更快吗？ “翘曲”这个词是否保持不变，32个线程？在Cliff的一个名为"CUDA概述“的演示中，我读到每个Fermi SM都有两个翘曲调度程序，它们能够同时维护”多达1536个线程“。既然我们有32个核心，那怎么可能呢？他的意思是，每48个块32个线程可以在队列中等待，以便占据内核，那么32*48 = 1536？

浏览 3提问于2015-05-26得票数 1

回答已采纳

1回答

OpenCL中的HyperQ支持

、、

我想运行在单个GPU上异步执行的异构内核。我认为在Nvidia Kepler K20(或任何具有计算能力的3.5+设备)中，这是可能的，方法是将每个内核启动到不同的流，运行时系统根据资源可用性将它们映射到不同的硬件队列。在OpenCL中可以访问此功能吗？如果是这样的话，OpenCL中的CUDA“流”相当于什么？Nvidia驱动程序是否支持通过OpenCL在其K20卡上执行此类操作？他们有没有任何AMD GPU有类似的功能(或者有什么正在开发中)？这些问题的答案都会对我有很大帮助。

浏览 1提问于2013-05-13得票数 2

1回答

有效的最小GPU线程数

、

我将在CUDA上并行化一些优化问题的局部搜索算法。这个问题非常困难，所以实际可解问题的规模很小。我担心的是，计划在一个内核中运行的线程数量不足以在GPU上获得任何加速(即使假设所有线程都聚合在一起，没有库冲突，无分支等)。假设为100个线程启动一个内核。期望从使用GPU中获得任何利润是否合理？如果线程数是1000，该怎么办？需要哪些额外信息来分析此案例？

浏览 0提问于2011-08-12得票数 6

回答已采纳