在Numba中，如何调用运行在GPU上的递归函数？_在合并排序中，递归调用实际上是如何工作的？_在递归python函数中，如何到达调用自身的代码行之后的代码行？ - 腾讯云开发者社区

、、、、

根据文档，似乎支持调用递归函数。call_recursive[1,1](d_data) h_data = cuda.to_host(d_data) print(h_data[0]) 在这种情况下，我所要做的就是调用一个调用递归函数的函数该函数调用自身10次，然后返回一个数字，该数字存储在给定数组中并返回给主机。我期望主

浏览 30提问于2020-07-24得票数 2

回答已采纳

2回答

有没有没有递归的快速排序的Python实现？

、、、

我试图在Python中不使用递归实现快速排序，但到目前为止，我发现的所有参考实现或伪代码都使用递归。这样做的原因是，我将调整这个非递归实现，以运行在使用Numba的GPU上，并且我不能在那里进行递归调用。是否有不使用递归的一维数组(例如，Numpy数组或Python列表)的快速排序实现？

浏览 46提问于2021-07-26得票数 1

回答已采纳

1回答

Numba/CUDA -调用矢量化库函数

、、、

我想使用Numba让GPU运行以下定义的函数，该函数具有签名：def ppf(p, df, mu, sigma):我不确定这是否相关，但是我注意到，由于这个函数是在一个单独的包中定义的，所以我不能在装饰器target='cuda'中指定。例如，考虑以下片段： from n

浏览 5提问于2022-01-15得票数 0

回答已采纳

1回答

Python:如何编写在GPU上运行的代码？

、、、

我已经尝试了相当一段时间来实现在GPU上运行的代码，但是没有取得什么成功。我非常感谢有人帮助实施。让我就这个问题说几句话。图G有N个节点，在每个节点x上有一个分布mx，我想计算所有边的每一对节点的分布之间的距离。对于给定的对，(x，y)，我使用python包中的代码ot.sinkhorn(mx, my, dNxNy)来计算距离。同样，mx，my是节点x和y上大小为Nx和Ny的向量

浏览 0提问于2019-05-25得票数 7

1回答

这个numba函数的错误是什么？

、、

我编写了这个python函数，我相信它将被移植到numba。不幸的是，它没有，而且我也不确定我是否理解错误：Invalid use of getiter with parameters (none).def iterator(N, k): r"""Numba implementation of an iterat

浏览 6提问于2022-03-25得票数 1

回答已采纳

2回答

当我在CUDA中使用递归时，为什么会收到警告？

、

我必须使用CUDA解决gpu上的代码问题，但是我总是收到堆栈大小的警告，因为“函数的名称”不能静态地确定。这是我正在做的一个学生项目，这个项目是用C编写的，使用CUDA 9.0库，它运行在NVIDIA Quadro K5000 gpu上。每个线程都必须执行一个函数，在这个函数中，有两个相同函数的递归</

浏览 0提问于2019-01-18得票数 1

回答已采纳

1回答

numba是否在功能之间将数据从GPU传递到CPU？

、

我习惯于把更大的工作分解成更小的功能，只要这个函数做一个或多或少独特的操作。section of codedata = func1(data)data = func3(data) 但是，如果我将这些函数转换为通过numba (使用@njit装饰符)在cuda上运行，那么faster...but可能会更快(也就是说，在调用每个函数

浏览 3提问于2020-08-28得票数 1

回答已采纳

1回答

Renderscript和GPU

、

我知道Renderscript的设计是为了掩盖我正在运行哪个处理器的事实，但是有什么方法来编写这样的代码吗?这样的代码可以在支持GPU的设备上运行(目前，Nexus 10)，它将在GPU上运行吗？有什么方法可以告诉我们脚本的函数正在GPU上运行吗？www.leapconf.com/downloads/LihuaZhang-Mu

浏览 3提问于2013-06-11得票数 5

回答已采纳

1回答

使用Numba* nopython模式时的TypeError*

、、

我是Numba的新手，正在尝试使用nopython模式进行jit编译代码。包含所有代码的colab笔记本可以在上找到我哪里搞错了？请提个建议。

浏览 119提问于2020-03-03得票数 1

1回答

使用numpy矢量化或映射来加速循环- Python NumPy 3D矩阵“摆脱循环”Python问题，蒙特卡罗

、、、

我并不是最擅长理解三维数组结构的，尽管我知道它实际上只是我习惯于在(2D)中思考的普通XxY的一个XxY表示。所以，如果你想知道这是什么，这是一个布朗桥(BB)结构，用于蒙特卡罗模拟金融问题。每条路径都被应用到一个模拟的价格中，随着时间的推移随机地“冲击它”，从而产生资产在到期时可能遵循的一条潜在路径。因此，我已经看到人们通过NumPy将np.vectorize矢量化，或者使用地图来“平平”一个循环，但我无法想象<e

浏览 2提问于2021-10-28得票数 0

回答已采纳

1回答

为什么numba* cuda在几次召回之后跑得很慢？*

、、、、

我在实验如何使用numba内部的cuda。然而，我遇到了一些与我期望不同的事情。这是我的密码@cuda.jit"""Perform square matrix multiplicationfor k in range(A.shape[1]): C[i, j] = tmp 这是我

浏览 4提问于2018-09-10得票数 3

回答已采纳

2回答

nopython模式下Numba递归函数中的错误

、、、、

我想使用nopython模式在Numba中运行一个递归函数。到现在为止我只会犯错误。这是一个非常简单的代码，用户给出一个小于五个元素的元组，然后函数创建另一个元组，其中添加了一个新的元组值(在本例中是数字3)。这是重复的，直到最后的元组有长度5。由于某些原因，这是不工作的，不知道为什么。编辑:我使用的是Numba</em

浏览 2提问于2019-04-08得票数 2

回答已采纳

1回答

Julia与Python+Numba* LLVM/JIT编译代码的性能比较*

、、、、

如果我们假设在调用BLAS和LAPACK函数时，Julia和Python的性能是相同的(在幕后)，那么对于不调用BLAS或LAPACK函数的代码，使用Numba或NumbaPro时，Julia的性能与CPython相比如何？Julia的旧LLVM是否会阻止在较新的体系结构上实现最佳的单指令多路复用，例如Inte

浏览 7提问于2015-04-10得票数 15

1回答

如何在GPU上并行运行简单的for循环

、、

我希望做一些非常基础的事情。我有一段不是我写的代码，它执行一些在单个数据集上运行大约需要10分钟的处理。我有50,000个数据集，所以我想利用多个GPU来并行运行。我熟悉如何在CPU上做到这一点，但是我不知道如何在GPU上做到这一点。我看到了许多关于如何通过numba提高gpu调用某些函数的速

浏览 0提问于2021-02-13得票数 0

1回答

为什么numba的表现比使用字符串元组的原生python差100？

、

出于性能原因，我想使用来改进我的代码的性能。但是，numba函数的性能比原生python函数差。有人能解释一下为什么吗？from numba import jitdef get_exact_score_with_numba/ len(tokens_to_match) tokens_to_match = ('a', &#

浏览 1提问于2021-09-25得票数 1

回答已采纳

1回答

在Numba中实现cuda gridsync()安全吗

、、、

)] (X) 通过将循环放在同一个内核中，避免了gpu内核的设置时间。这里有一种在numba中执行gridsync()的明显方法，所以你会认为人们会使用这种方法，但我找不到任何这样的例子。然而，我在stackoverflow上发现了很多评论--没有解释--试图使用原子计数器在网格上同步块是毫无意义的，不安全的，或者会在竞争条件下死锁。相反，他们建议在</e

浏览 0提问于2019-02-10得票数 0

1回答

当同时使用numba.cuda和CuPy时，为什么从GPU传输数据的速度这么慢？

、、、

我阅读了cupy文档中关于如何同时使用cupy和numba以及如何使用cuda加速代码的示例。我编写了一个类似的代码来测试它：from numba import cudaimport time 0.002993345260620117 在第一种情况下，out2的调用怎么会这么慢？我正在编写一些函数</

浏览 3提问于2020-07-09得票数 0

回答已采纳

1回答

numba没有加速代码的编译。

、、、、

我在numba和普通模式下尝试了这段代码，但两者都在13秒内完成，numba没有增加速度。from numba import jit, cuda@jit(target_backend="cuda") for i

浏览 10提问于2022-03-11得票数 0

回答已采纳

2回答

如何使用纯python激活google colab gpu

、、、

我是谷歌colab的新手。我已经编写了一个类来创建和训练LSTM网络，只使用python -而不是任何特定的深度学习库，如tensorflow，pytorch等。我认为我使用的是gpu，因为我在colab中选择了正确的运行时类型。然而，在代码执行期间，我有时会收到退出gpu模式的消息，因为我没有使用它。那么，我的问题是:如何使用google colab gpu

浏览 2提问于2020-03-16得票数 4

2回答

为什么CUDA GPU矩阵乘法比numpy慢？怎么这么快？

、、、、

我正在发现numba的CUDA扩展，并看了一个在cuda上实现矩阵乘法的例子。代码在上。然后，我用我认为不太理想的实现对它进行基准测试:numpy的点函数，将两个1024x1024矩阵(用randn(1024,1024)生成)相乘。正如一位评论者所问的，数组位于32位浮点数中。我知道一个3 3GHz的CPU不能在5ps内完成一个任务，所以很明显，我指的是平均吞吐量。然而，我认为主内

浏览 3提问于2021-08-12得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云