如何在Numba cuda中对字符串数组进行核函数处理？ - 腾讯云开发者社区

python、types、vectorization、numba

我正在定义一个函数，并希望使用来加速它，使用cuda。我在函数签名上有问题。该函数将返回一个float64值。我想传递两个float64值，这两个值将被矢量化，另外还有一个9元组的float64值，它将是标量。下面是我的函数头： from numba import vectorize @vectorize(['float64(float64, float64, UniTuple(float64, 9))'], target='cuda') def fn_vec(E, L, fparams): # calculations... return

浏览 0提问于2019-04-19得票数 4

回答已采纳

1回答

如何在RTX GPU中用python和numba编程NVIDIA的张量核？

python、cuda、gpu、nvidia、numba

我感兴趣的是在python中使用NVIDIA RTX GPU的张量核，以便在一些科学计算中受益于它的速度。Numba是一个伟大的库，它允许为cuda编程内核，但是我还没有找到如何使用张量核。能用Numba做吗？如果没有，我应该使用什么？

浏览 2提问于2020-06-20得票数 0

回答已采纳

2回答

如何在numba CUDA中分割行？

arrays、cuda、numba、memcpy

我是Numba的初学者。我很难在GPU中重新排列数组的行。例如，在Numba CPU中，这可以通过 from numba import njit import numpy as np @njit def numba_cpu(A, B, ind): for i, t in enumerate(ind): B[i, :] = A[t, :] ind = np.array([3, 2, 0, 1, 4]) A = np.random.rand(5, 3) B = np.zeros((5, 3)) numba_cpu(A, B, ind) 但是它不适用于cuda.jit

浏览 5提问于2021-05-26得票数 0

回答已采纳

1回答

用cuda.jit装饰器替换njit装饰器

cuda、numba、numba-pro

我有一个Nvidia图形处理器，下载了CUDA，并且正在尝试使用它。假设我有这样的代码： #@cuda.jit (Attempted fix #1) #@cuda.jit(device = True) (Attempted fix #2) #@cuda.jit(int32(int32,int32)) (Attempted fix #3) @njit def product(rho, theta): x = rho * (theta) return(x) a = product(1,2) print(a) 我如何让它使用cuda.jit装饰器而不是njit？我尝试过的东西

浏览 21提问于2019-05-04得票数 0

1回答

numba上有没有在GPU上做矩阵求逆的函数？

python、cuda、numba

我的算法使用Numba在GPU上运行模拟，我需要做一个矩阵求逆，在CPU上我知道如何使用numpy来做这件事，但是仅仅为了做这个计算而将数据移动到CPU的成本是不值得的。实际上，我在网上搜索了一下，发现使用其他库(scikit-cuda、cupy、pytorch等)也可以做到这一点。但是我想知道是否只有Numba可以做到这一点，或者我是否必须选择另一个库来做到这一点。

浏览 14提问于2021-09-12得票数 0

2回答

为什么CUDA GPU矩阵乘法比numpy慢？怎么这么快？

python、numpy、cuda、benchmarking、numba

我正在发现numba的CUDA扩展，并看了一个在cuda上实现矩阵乘法的例子。代码在上。然后，我用我认为不太理想的实现对它进行基准测试:numpy的点函数，将两个1024x1024矩阵(用randn(1024,1024)生成)相乘。结果：库达每乘40毫秒，每乘5毫秒。如果numpy算法是朴素矩阵乘法，则需要1024^3 ~ 1e9乘法。这是平均每5ms/1e9 =5微微秒的一个操作的吞吐量。我的CPU运行速度约为3.4 GHz，因此每个周期需要300皮秒。所以我的问题是:numpy的矩阵怎么能比一个天真的矩阵快60倍？我听说了Strassen的算法，它的复杂度大约

浏览 3提问于2021-08-12得票数 1

7回答

Python GPU编程

python、cuda、gpu

我目前正在做一个python项目，我想使用GPU进行一些计算。乍一看，似乎有很多可用的工具；再看一眼，我觉得我错过了一些东西。铜头看起来很棒，但还没有发布。看起来我只局限于编写低级的CUDA或openCL内核；没有推力，就没有cudpp。如果我想把东西整理好，我就得自己做了。这对我来说似乎不太对。我是不是真的漏掉了什么？或者，这个GPU脚本还没有完全达到炒作的程度？编辑: GPULIB似乎就是我需要的。文档是基本的，python绑定只是顺便提一下，但我现在正在申请一个下载链接。有谁有这方面的经验，或者链接到类似的免费供学术使用的GPU库？ReEdit:好吧，python绑定实际上是不存

浏览 3提问于2011-05-11得票数 54

1回答

numba cuda.jit中没有numpy函数工作

python、numpy、numba

我试过运行这段代码 @cuda.jit def arr(): a = np.array([1., 2., 3., 4.], dtype=np.float32) arr() 但是它导致了这个错误-- TypingError: Failed in nopython mode pipeline (step: nopython frontend) Use of unsupported NumPy function 'numpy.array' or unsupported use of the function. --我不明白为什么会发生这种情况，难道cuda.jit不应该支持大

浏览 9提问于2020-04-08得票数 1

回答已采纳

1回答

Numba/CUDA -调用矢量化库函数

python、cuda、gpu、numba

我想使用Numba让GPU运行以下定义的函数，该函数具有签名： @numba.vectorize(_signatures) def ppf(p, df, mu, sigma): # do stuff here 我不确定这是否相关，但是我注意到，由于这个函数是在一个单独的包中定义的，所以我不能在装饰器target='cuda'中指定。例如，考虑以下片段： from numba import cuda, vectorize @cuda.jit('float32(float32, float32, float32)', device=True) def c

浏览 5提问于2022-01-15得票数 0

回答已采纳

1回答

在Numba中，如何在面向CUDA时将数组复制到常量内存中？

python、python-3.x、cuda、numba、gpu-constant-memory

我有一个示例代码来说明这个问题： import numpy as np from numba import cuda, types import configs def main(): arr = np.empty(0, dtype=np.uint8) stream = cuda.stream() d_arr = cuda.to_device(arr, stream=stream) kernel[configs.BLOCK_COUNT, configs.THREAD_COUNT, stream](d_arr) @cuda.jit(types.void

浏览 70提问于2020-08-08得票数 1

回答已采纳

1回答

从@cuda.jit numba函数中调用其他函数

python、cuda、jit、numba

我有一个函数，其中添加了@cuda.jit装饰器。 @cuda.jit def foo(x): bar(x[0]) bar(x[1]) bar(x[2]) def bar(x): # Some routine 我不想把条形复制到foo的主体中，因为这会使代码变得笨拙和丑陋。 Numba的cuda.jit是如何处理这个问题的？函数在编译过程中是否内联？酒吧需要放弃吗？如果是这样的话，它将调用其他线程，而我发现这对于仅超过3个元素的计算来说是过分的. 我还认为，cuda内核也不能调用其他cuda内核。我是numba/cuda的新手，所以如果这里的理解有什么根本错误的话，

浏览 3提问于2019-05-06得票数 4

回答已采纳

1回答

使用numba.cuda在GPU上运行Sympy函数

cuda、sympy、numba

我正在尝试使用numba.cuda在GPU上运行任意的渐近lambdify函数。到目前为止，由于numba.jit允许函数返回值，但numba.cuda.jit不允许返回值(numba.cuda.jit内核不能返回值)，我在每一步都会遇到错误。这可能源于我对numba工作方式的根本误解，但文档中的示例有些稀少，我尝试修改每个给定的示例，试图做我想做的事情，但没有结果。我尝试过的例子：非数据自动化系统jit函数(works) import sympy from sympy.abc import y import numba f = sympy.lambdify(y, sympy.sin(y

浏览 1提问于2020-08-24得票数 1

1回答

python中非常慢的numba CUDA

python、numba

我在numba cuda中运行这段简单的代码，发现它非常慢。你知道瓶颈是什么吗？ @cuda.jit('int32(float64, float64, int32)', device=True) def mandelbrot_numbagpu(creal,cimag,maxiter): real = creal imag = cimag for n in range(maxiter): real2 = real*real imag2 = imag*imag

浏览 3提问于2016-01-28得票数 1

1回答

为什么Numba要优化这个常规的Python循环，而不是numpy操作？

python、performance、numpy、numba

我写了这个简单的测试来评估Numba的性能，并将其与常规的Python和Numpy进行比较： import numba.cuda import numba import numpy import time import math SIZE = 1000000 ITER = 10 BLOCK = 256 def func_py(result, op1, op2): for pos in range(SIZE): result[pos] += op1[pos] * op2[pos] def func_numpy(result, op1, op2):

浏览 0提问于2021-06-04得票数 2

1回答

cuda.local.array在南巴的正确用法是什么？

python、cuda、numba

我使用numba在python中编写了测试代码。 from numba import cuda import numpy as np import numba @cuda.jit def function(output, size, random_array): i_p, i_k1, i_k2 = cuda.grid(3) a=cuda.local.array(shape=1,dtype=numba.float64) if i_p<size and i_k1<size and i_k2<size: a1=i_p a2=i

浏览 0提问于2018-02-06得票数 1

回答已采纳

1回答

numba cuda弃用错误:如何更新我的代码？

python、cuda、numba

我在这里运行一个jupyter笔记本：当前numba/cuda的文档在这里：我在python中的numba.cuda中运行这一行： from numba import cuda from numba import * 我有一个mandel函数如下： @jit def mandel(x, y, max_iters): """ Given the real and imaginary parts of a complex number, determine if it is a candidate for membership in the Mand

浏览 2提问于2022-08-08得票数 -2

1回答

Numba的计算速度似乎比顺序运行慢。我犯了明显的错误吗？

performance、cuda、numba

有几个线程涉及类似的主题，但不幸的是，这些内容对我来说似乎太复杂了，所以我想问一个类似的问题，希望有人专门看一下我的代码，告诉我如果我做错了什么。我现在正在学习numba，从网上可以找到的简单例子开始。我从这里开始学习这个教程：它显示了如何并行地添加数组。他们用来评估时间的系统配置没有给出。对于代码复制，我使用Geforce GTX 1080 Ti和Intel Core i7 8700K CPU。我基本上复制了教程中的加法脚本，但也添加了顺序代码以进行比较： from numba import cuda import numpy as np import time import mat

浏览 2提问于2021-10-09得票数 0

回答已采纳

1回答

是否可以调用间接调用另一个cuda.jit函数的cuda.jit函数？

python、cuda、jit、numba

我需要能够调用GPU函数，而GPU函数本身又间接调用另一个GPU函数： from numba import cuda, jit import numpy as np # GPU function @cuda.jit(device = True) def euclidean_distance_gpu(input_vec, weight, diffs): i = cuda.grid(1) if i < input_vec.shape[0]: diffs[i] = (input_vec[i] - weight[i]) ** 2 @jit # CPU function def

浏览 0提问于2020-06-22得票数 2

1回答

Numba中的组合矢量化函数

gpu、vectorization、numba、dispatch、numpy-ufunc

我正在使用Numba (版本0.37.0)来优化GPU的代码。我想使用组合的向量化函数(使用Numba的@vectorize装饰器)。进口和数据： import numpy as np from math import sqrt from numba import vectorize, guvectorize angles = np.random.uniform(-np.pi, np.pi, 10) coords = np.stack([np.cos(angles), np.sin(angles)], axis=1) 这项工作如预期的那样： @guvectorize(['(floa

浏览 7提问于2019-09-26得票数 3

回答已采纳

1回答

如何使用numba在内核内分配数组？

python、cuda、numba

我试图在内核内部的for循环中分配一些数组。内核看起来如下： @cuda.jit def forcecudatiling(p_num,d_num,r,force): threadsInBlock=cuda.blockDim.x threadsInGrid=threadsInBlock*cuda.gridDim.x tid=cuda.threadIdx.x + cuda.blockIdx.x*cuda.blockDim.x tiles=p_num/cuda.blockDim.x + 1 shared_p_mx = cuda.shared.array(0,d

浏览 3提问于2020-03-28得票数 0

1回答

如何在GPU(python3.5+numba+CUDA8.0)中计算对数

python、cuda、numba、numba-pro

我用math.log计算了GPU中的对数，这是之一。但失败了。我的代码： import os,sys,time,math import pandas as pd import numpy as np from numba import cuda, float32 import os bpg = (3,1) tpb = (2,3) @cuda.jit def calcu_T(D,T): bx = cuda.blockIdx.x tx = cuda.threadIdx.x ty = cuda.threadIdx.y c_num = D.shap

浏览 0提问于2017-04-10得票数 1

回答已采纳

3回答

什么时候能有效？

python、python-3.x、performance、numba

我知道numba会创建一些间接费用，在某些情况下(非密集计算)，纯python会变得更慢。但我不知道的是在哪里划界线。是否可以用算法复杂度的顺序来确定在哪里？例如，为了添加两个数组(~O(n))，在这段代码中，纯python比5更短： def sum_1(a,b): result = 0.0 for i,j in zip(a,b): result += (i+j) return result @numba.jit('float64[:](float64[:],float64[:])') def sum_2(a,b):

浏览 0提问于2019-03-29得票数 4

回答已采纳

3回答

concurrent.futures.ThreadPoolExecutor.map比for循环慢

python、multithreading、python-3.x、threadpoolexecutor、concurrent.futures

我正在玩concurrent.futures.ThreadPoolExecutor，看我是否能从我的四核处理器(有8个逻辑核)中挤出更多的工作。因此，我编写了以下代码： from concurrent import futures def square(n): return n**2 def threadWorker(t): n, d = t if n not in d: d[n] = square(n) def master(n, numthreads): d = {} with futures.ThreadPoolExecuto

浏览 9提问于2014-01-18得票数 9

回答已采纳

1回答

如何在GPU上运行numba.jit修饰函数？

python、cuda、numba

我正试着进入numba gpu processing。我有这个MWE import numpy as np import numba @numba.njit def function(): ar = np.zeros((3, 3)) for i in range(3): ar[i] = (1, 2, 3) return ar ar = function() print(ar) 输出： [[1. 2. 3.] [1. 2. 3.] [1. 2. 3.]] 现在我想在我的gpu上运行它。我尝试使用以下decorators @numba.njit(ta

浏览 3提问于2020-07-08得票数 2

回答已采纳

1回答

在Python内核中使用cublas

python、cuda、cublas

我有一个简单的矩阵乘法码，如下所示： TPB = 32 @cuda.jit('void(double[:, :], double[:,:], double[:, :])', device = True) def GPU_Mat2(A, B, C): bx = cuda.blockIdx.x by = cuda.blockIdx.y tx = cuda.threadIdx.x ty = cuda.threadIdx.y ROW = bx * TPB + tx COL = by * TPB + ty res = 0

浏览 2提问于2017-08-01得票数 1

回答已采纳

3回答

CUDA GPU的Numba代码编译失败，并显示OSError: exception: access violation reading

python、gpu、numba

我在用Python/Numba为CUDA GPU编写代码时遇到了一个问题，我根本不知道我做错了什么，也不知道哪个组件是坏的。在95%的情况下，程序没有编译，因为当我重启python内核并尝试运行我编写的CUDA内核时，我收到了以下错误。 OSError Traceback (most recent call last) in 6 data_isgomoku = np.load("data/isgomoku_moreThan5Good.npy") 7 ----> 8 kernel_test_02[blocks, threads_per_block](envs_in_gpu,

浏览 90提问于2020-05-31得票数 0

1回答

为什么numba cuda在几次召回之后跑得很慢？

python-3.x、cuda、numba、pycuda、numba-pro

我在实验如何使用numba内部的cuda。然而，我遇到了一些与我期望不同的事情。这是我的密码 from numba import cuda @cuda.jit def matmul(A, B, C): """Perform square matrix multiplication of C = A * B """ d=cuda.local.array((3,3),dtype=numba.float64) i, j = cuda.grid(2) if i < C.shape[0] and j < C.shape[1]: tmp

浏览 4提问于2018-09-10得票数 3

回答已采纳

2回答

未识别的选项:使用@jit(target="cuda")时{“目标”}

python、cuda、numba

我使用numba库中的装饰器@jit优化了一些python代码。但是，我想指示@jit显式地使用我的GPU设备。出发地：，我知道我需要使用@jit(target="cuda")来完成它。我试着这样做： from numba import jit, cuda @jit(target='cuda') # The code runs normally without (target='cuda') def function(args): # some code 我得到了以下错误： KeyError: "Unrecognized o

浏览 14提问于2022-05-22得票数 1

回答已采纳

1回答

如何计算函数的值，而不返回它们或设置它们全局(对于numba.cuda)？

python、function、cuda、return、numba

我正在尝试在CUDA GPU上运行这段简单的代码。我使用的模块是numba.cuda import numba from numba import cuda @numba.cuda.jit def function_4(j, k): l = j + k return l l = function_4(1, 2) print(l) 输出： Traceback (most recent call last): File "/home/amu/Desktop/RL_framework/help_functions/test2.py", line 9, in

浏览 31提问于2020-07-13得票数 0

2回答

比较numba编译函数中的字符串

python、string、numba

我正在研究如何最好地比较使用numba编译的python函数中的字符串(没有python模式，python 3)。用例如下： import numba as nb @nb.jit(nopython = True, cache = True) def foo(a, t = 'default'): if t == 'awesome': return(a**2) elif t == 'default': return(a**3) else: ... 但是，将返回以下错误： In

浏览 2提问于2017-10-12得票数 7

回答已采纳

1回答

当在for循环中使用continue时，Numba“使用不支持的操作码(CONTINUE_LOOP)找到”错误

python、pandas、numpy、optimization、numba

尝试在已定义的函数上启用numba优化时出现错误。下面是简化后的函数： @jit def monte_carlo(iterations): key1 = [] key2 = [] score = [] for i in range(iterations): random.seed(i) temp_matrix = random.sample(matrix, length) for j in range(iterations): random.seed(j) key

浏览 2提问于2020-05-31得票数 1

1回答

numba没有加速代码的编译。

python、performance、gpu、numba、jit

我在numba和普通模式下尝试了这段代码，但两者都在13秒内完成，numba没有增加速度。我怎么才能让numba适应这种情况？ import numpy as np from numba import jit, cuda a=[] @jit(target_backend="cuda") def func(): for i in range(100000): a.append(i) return a print(func())

浏览 10提问于2022-03-11得票数 0

回答已采纳

1回答

如何在GPU上调用Scipy函数？

python、scipy、cuda、gpu、numba

安装包后，下面的代码片段可以工作： import numba import scipy.special as sc @numba.vectorize(['float64(float64, float64)']) def t_quantile(df, p): return sc.stdtrit(df, p) t_quantile(2., 0.975) 如何在GPU上执行t_quantile()，因为我在下面的代码中失败了？ import numba import scipy.special as sc @numba.vectorize(['float64(f

浏览 6提问于2022-01-16得票数 0

回答已采纳

1回答

Numba cuda正在编译，但不工作，没有抛出异常

exception、cuda、jit、numba

我正在试着写一个简单的函数来测试为什么numba.cuda不能工作。该函数应将变量设置为固定值。当我调用这个函数时，它似乎被编译了，但什么也没发生。我补充说，它应该引发一个异常，只是为了看看它被调用了，但同样什么也没有发生。我没有得到任何类型的异常来给我一个提示，为什么它不工作。功能： from numba import cuda @cuda.jit # also tried it with brackets: @cuda.jit() def cuda_func(out): out = 1 raise NameError('MyException'

浏览 3提问于2021-03-08得票数 0

1回答

预编译numba cuda内核(非jit)

python、multiprocessing、gpu、jit、numba

你好，我正在使用numba编写一些带有@cuda.jit装饰器的内核。我有8个CPU线程，每个线程在2个GPU设备中的一个上调用一个内核。(具体为cpu_idx % len(cuda.gpus)) 我相信每个CPU线程都在编译内核，相对于内核处理整个图像所需的时间，这会占用很多时间。理想情况下，它应该只编译一次，以供所有CPU线程使用。但是我不能在使用multiprocessing.Pool分支之前初始化任何cuda gpu代码，因为cuda不喜欢那样。那么有没有办法预编译cuda内核呢？我不想要即时编译

浏览 19提问于2020-04-09得票数 0

1回答

如何并行化此函数以提高性能

python、numpy、cuda、numba

我有一个类似于fun1的函数，它被称为百万次。为了更快的执行时间，我希望并行化fun1，可能使用@cuda.jit或类似的方法。我尝试使用@njit，发现执行不仅仅是在没有它的情况下运行。有人能提出一个有效的方法吗？ import numpy as np from numba import njit import time @njit def fun1(n1, b): i1 = 0 while n1 > b[i1][0]: i1 += 1 n2 = b[i1-2][1]*b[i1-2][0] + b[i1-1][1]* b[i1-1][

浏览 4提问于2022-08-30得票数 -2

2回答

numba不能用+=产生正确的结果(需要减少gpu吗？)

cuda、numba、gpu、reduction

我用numba cuda来计算一个函数。代码只是将所有的值加到一个结果中，但是numba给出了与numpy不同的结果。 numba码 import math def numba_example(number_of_maximum_loop,gs,ts,bs): from numba import cuda result = cuda.device_array([3,]) @cuda.jit(device=True) def BesselJ0(x): return math.sqrt(2/math.pi/x)

浏览 0提问于2018-12-12得票数 1

回答已采纳

1回答

在numba中用数组索引数组

python、arrays、numba

作为我想用numba编译的一个更复杂的函数的一部分，我必须用另一个数组A索引数组idx。重要的是，数组A的维度是可变的。形状可以是(N)，(N,N)，或(N,N,N)等。在python中，我可以使用元组来做到这一点： def test(): A = np.arange(5*5*5).reshape(5,5,5) idx = np.array([0,2,4]) return A[tuple(idx)] 但是，numba显然不支持用元组索引数组，因为我得到了以下错误： TypingError: Failed in nopython mode pipeline (step

浏览 1提问于2022-04-23得票数 1

回答已采纳

1回答

在numba jit函数中使用numba jitclass作为参数

python、cuda、gpu、numba

我使用Numba0.46.0，我想将类中的一个对象作为参数传递给我的函数，并使用CUDA在我的GPU上运行这个函数。如果我想使用一个简单的Python (比如int)，我会使用如下内容： from numba import jit, cuda from numba.types import void, int32 @jit(void(int32), target='cuda') def f(int_object): pass f(123) 这个很好用。现在我试着对一个类做同样的事情： from numba import jit, cuda from numba,ty

浏览 2提问于2019-12-01得票数 1

回答已采纳

1回答

Numpy批点积

python、numpy、performance、linear-algebra

假设我有两个向量，想取它们的点积，这很简单， import numpy as np a = np.random.rand(3) b = np.random.rand(3) result = np.dot(a,b) 如果我有一堆向量，并且希望每个向量都被点缀，最天真的代码是 # 5 = number of vectors a = np.random.rand(5,3) b = np.random.rand(5,3) result = [np.dot(aa,bb) for aa, bb in zip(a,b)] 对此计算进行分批的两种方法是使用乘法和求和，和e_ sum， result = n

浏览 4提问于2021-12-28得票数 8

1回答

如何在cython (或numba)中迭代列表列表？

python、loops、cython、nested-lists、numba

我想要一个函数，它接收列表的列表作为参数，每个子列表具有不同的大小，并且可以迭代每个子列表(包含整数)，以将它们作为广播传递给numpy数组，并执行不同的操作(如平均值)。让我包含一个不使用cython的预期行为的简单示例： import numpy as np mask = [[0, 1, 2, 4, 6, 7, 8, 9], [0, 1, 2, 4, 6, 7, 8, 9], [0, 1, 2, 4, 6, 9], [3, 5, 8], [0, 1, 2, 4, 6, 7, 8, 9], [3, 5, 7]

浏览 1提问于2020-04-21得票数 1

1回答

NUMBA -如何使用"cuda“目标在@guvectorize中生成随机数？

numba

在这个(哑巴)例子中，我试图通过计算落入单位圆的(0，1) x (0，1)中随机选择的点的数量来计算π。 @guvectorize(['void(float64[:], int32, float64[:])'], '(n),()->(n)', target='cuda') def guvec_compute_pi(arr, iters, res): n = arr.shape[0] for t in range(n): inside = 0 for i in range(iters):

浏览 3提问于2018-02-17得票数 1

回答已采纳

1回答

Numba GPU支持具有计算能力2.1的NVIDIA

python、cuda、numba

我似乎无法理解numba对cuda支持的要求。在这里()，它说我需要高于2.0的计算能力，我有一个NVIDIA GeForce 820米，它有2.1，所以我认为这没问题，但这里()它说我需要3.0或更高，甚至它是停止了。另外，当我从命令提示符运行"nvcc -version“时， nvcc: NVIDIA (注册商标) Cuda编译器驱动程序版权(c) 2005-2022 NVIDIA公司建立在Tue_May__3_19:00:59_Pacific_Daylight_Time_2022 Cuda编译工具上，版本11.7，V11.7.64构建cuda_11.7.r11.7/编译器.312

浏览 3提问于2022-06-01得票数 0

回答已采纳

1回答

Numbapro cuda python在gpu线程寄存器中定义数组

python、cuda、pycuda、numba、numba-pro

我知道如何使用np.array或np.zeros或np.empty(shape, dtype)在主机中创建全局设备函数，然后使用cuda.to_device复制。另外，还可以将共享数组声明为cuda.shared.array(shape, dtype)。但是如何在gpu函数中特定线程的寄存器中创建一个恒定大小的数组。我试过cuda.device_array或np.array，但都没有用。我只想在线程里做这个- x = array(CONSTANT, int32) # should make x for each thread

浏览 5提问于2014-11-28得票数 0

回答已采纳

1回答

用spyder在GPU上实现python代码

python、cuda

根据知识，with tf.device('/GPU')可用于在GPU中实现张量流.有没有类似的方法在GPU(Cuda)上实现任何python代码？还是我应该用俾库达？

浏览 2提问于2018-06-04得票数 2

1回答

Numba打印有关Nvidia驱动程序的信息到python控制台时，使用它的Cuda模块。如何压制这一切？

python、numba

我发现在使用Numba的Cuda模块时，Numba正在将有关我的Nvidia驱动程序的信息打印到python控制台。例如，当使用 numba.cuda.to_device(SOME_ARRAY) 第一次，信息- 2020-12-21 19:16:22,163 -司机- init 用红色打印到我的控制台上。其他时间使用它时，信息-日期时间驱动程序-添加挂起的dealloc: cuMemFree_v2 NUM_BYTES字节是印出来的。例如：信息- 2020-12-21 19:18:34,473 -驱动程序-添加挂起的dealloc: cuMemFree_v2 729120字节有什

浏览 2提问于2020-12-21得票数 1

1回答

Numba python CUDA与cuBLAS在简单操作上的速度差异

python、cuda、numba

我分析了一些代码却找不出性能差异。我试图在两个数组之间做一个简单的元素加法(就地)。这是使用numba的CUDA内核： from numba import cuda @cuda.jit('void(float32[:], float32[:])') def cuda_add(x, y): ix = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x stepSize = cuda.gridDim.x * cuda.blockDim.x while ix < v0.shape[0]:

浏览 0提问于2017-06-11得票数 4

回答已采纳

1回答

如何释放Numba cuda占用的GPU内存？

python、cuda、numba

x_cpu，y_cpu，z_cpu是等长的大数组，结果是网格结果，会降低x，y，z分辨率，每个网格只保留一个点，它们不能一起放到内存中。所以我将x，y，z分成几个部分，但仍然将整个结果放入使用的GPU内存中 from numba import cuda from math import ceil SegmentSize = 1000000 Loops = ceil(len(x_cpu),SegmentSize) Result = cuda.device_array((maxX-minX,maxY-minY)) for lopIdx in range(Loops): x = cuda.

浏览 70提问于2020-07-30得票数 1

1回答

这段代码有什么问题？模块类型的未知属性'array‘(<module 'numpy’from filename init.py'>

python、arrays、numpy、numba

我正在尝试使用@vectorize在函数中创建一个数组，我不知道为什么我一直收到这个错误： Unknown attribute 'array' of type Module( < module 'numpy' from 'filename.... /lib/python3.6/site-packages/numpy/ __ init __ .py'>) 代码： from numba import vectorize, float32 import numpy as np @vectorize([float32(float32[:,

浏览 38提问于2018-12-21得票数 1

回答已采纳

1回答

LoweringError是什么意思？

python、cuda、jit、numba

我正在尝试执行以下内核 from numba import cuda import numpy as np @cuda.jit def Dark_Pix_Search_Kernel(all_bands,window_size,output_array): row_size = all_bands.shape[0] col_size = all_bands.shape[1] end_r = row_size - (row_size -row_size*int(row_size/window_size[0])) - window_size[0] + 1 end_c

浏览 0提问于2019-11-02得票数 1