CUDA，复制到共享内存会显著增加使用的寄存器数量

文章/答案/技术大牛

发布

1回答

、

我正在使用pycuda来解决一个偏微分方程系统。因此，我的目标是对每个线程进行一些本地计算，然后写入共享内存数组。我是GPU计算的新手，但我所知道的关于手头的问题写在下面。这个问题与下面代码片段中注释掉的代码行有关。我知道共享内存对于块中的线程间通信是理想的，并且我的共享内存工作正常，直到我尝试从一个局部变量写入它，我假设这个变

浏览 62提问于2019-07-11得票数 0

回答已采纳

3回答

CUDA:合并的全局内存访问是否比共享内存更快？另外，分配一个大的共享内存数组会减慢程序的运行速度吗？

我没有发现在NVIDIA Tesla M2050上共享内存的速度有任何提高，每块共享内存约为49K。实际上，如果我在共享内存中分配一个大的char数组，它会减慢我的程序。例如使我的运行时间比程序只访问数据库的前100个字符，所以不需要额外的空间我不明

浏览 0提问于2012-02-08得票数 8

回答已采纳

3回答

在CUDA中增加每个线程的寄存器使用量

、、、

通常，建议降低每个线程的寄存器压力以增加warp占用率，从而通过warp级多线程(TLP)提供更大的机会来隐藏延迟。为了减少寄存器压力，可以使用更多的每个线程的本地内存或每个线程块的共享内存。然而，对于延迟关键型应用程序，其中有很少的计算和更频繁的内存访问，这种方法实际上往往会降低性能。对于这种延迟关键型应用程

浏览 11提问于2012-08-31得票数 5

3回答

库达:可以使用所有48 It的片上内存作为共享内存吗？

、、、

我的程序比典型的CUDA程序占用更多的内存，我正试图为每个CUDA块分配尽可能多的共享内存。但是，每当我试图为每个块使用超过32K的共享内存时，程序就会崩溃。通过阅读官方的CUDA文档，我了解到在计算能力为2.0或更高的CUDA设备上，每个SM都有48 or的片上内存

浏览 4提问于2012-09-13得票数 4

回答已采纳

5回答

CUDA确定每个块的线程，每个网格的块

、、、

我是CUDA范例的新手。我的问题是确定每个块的线程数，以及每个网格的块数。这里面有没有一些艺术和尝试的东西？我发现很多例子看起来都是任意选择的数字。我正在考虑一个问题，在这个问题中，我可以将任意大小的矩阵传递给乘法方法。因此，C的每个元素(如C=A* B)将由单个线程计算。在这种情况下，您如何确定线程/块、块/网格？

浏览 0提问于2010-12-09得票数 62

回答已采纳

2回答

如果我在GPU内核中使用了许多局部变量，这些变量会驻留在全局内存中吗？

、、

如果我在GPU内核中使用了很多变量，这些变量会驻留在全局内存中吗？因此读取和写入局部变量将需要访问全局内存？谢谢，山姆

浏览 3提问于2013-01-17得票数 2

1回答

使用32位而不是64位来减少寄存器的数量

我正在使用GTX土卫六计算3.5。在Windows 8 64位和CUDA 5 64位。由于我的全局内存使用量不超过3GB，而且我的所有变量都使用32位或更低的内存，我想知道使用32位内核是否会减少寄存器使用的数量，因为现在的指针将是u32。64位指针占用两个寄存器吗？有人试图通过将内核编

浏览 3提问于2013-06-12得票数 2

回答已采纳

1回答

我正在分析一个内核，它在一个GTX480中每个线程使用25个寄存器，每个块使用3568字节的共享内存。内核配置为启动16x16线程，线程缓存首选项设置为共享。根据GTX480的规范，该设备的每个SM有32768个寄存器，因此可以同时运行25 regs x 256 threads per block x 6 blocks per SM模块。但是，Compute Visual Profiler和Cuda

浏览 1提问于2012-10-24得票数 2

回答已采纳

3回答

用short替换int对CUDA中的性能有帮助吗

、

假设我们有足够的全局内存。用short替换int是否会提高CUDA的性能？(如short节省了共享内存、寄存器等的使用) 欢迎您的建议。谢谢。

浏览 2提问于2011-09-07得票数 3

回答已采纳

1回答

如何在CUDA编译中分配寄存器

、、

据说，每个内核的寄存器数量对于CUDA优化很重要，这个数字的上限可以通过nvcc中的-maxrregcount=N来设置。我不能理解这一点，因为我认为寄存器的数量可以简单地通过计算内核中的局部变量(可能还有传递的参数)来确定。我知道我错了，因为来自"nvcc --ptxas-options=-v“的报告远远超出了我的想法。有人能仔细考虑一下吗？

浏览 1提问于2013-02-05得票数 3

2回答

每个多处理器的最大驻留线程数与。每个多处理器的最大驻留块数

、

我在我的K20上运行了一个关于并发内核执行资源的问题。我的流只有一点重叠，然后我想这可能是因为资源的限制。所以我参考了手册，我发现:每个多处理器的驻留块的最大数量是16，每个多处理器的驻留线程的最大数量是2048。答案1: 96/16 =6 答案2:

浏览 1提问于2013-06-18得票数 4

回答已采纳

1回答

库达活动翘曲与常驻翘曲

、、

在CUDA中的占用定义为常驻 CUDA翘曲与active one有什么区别？从我在web上的研究来看，似乎一个块在整个执行过程中都是驻留在SM上的(即与其寄存器/共享内存文件一起分配的)。和“积极”有什么区别吗？如果我有一个内核，它很少使用寄存器和共享内存

浏览 0提问于2017-01-29得票数 0

回答已采纳

1回答

使用无符号的短整数作为寄存器和共享内存是否有意义？

、

在CUDA程序中使用无符号的短整数(用于存储寄存器的内存)和共享内存(更快的访问)是否有意义？因此，没有理由<em

浏览 2提问于2012-10-04得票数 2

2回答

关于寄存器的CUDA内核的优化

、

我正在使用CUDA占用率计算器来优化我的CUDA内核。目前我使用了34个寄存器和零个共享memory...Thus，每块310个线程的最大占用率为63%。当我以某种方式将寄存器(例如，通过共享内存传递内核参数)更改为20或更低时，我可以获得100%的占用率。这是一个好方法吗?或者你会建议我使用另一种优化方法吗？此外，我还想知道是否有更新版本<em

浏览 1提问于2011-05-19得票数 4

回答已采纳

1回答

在配置文件引导的优化之后，嵌套for循环速度更快，但缓存丢失率更高

、、、

我有一个程序，它的核心是一个二维数组，其形式是有一个简单的双for循环，有点像这样：这怎么可能呢？循环中没有条件项可

浏览 4提问于2014-04-09得票数 5

回答已采纳

1回答

块的数量可以同时调度。

这个问题也是从以下链接开始的：是否意味着当条件2和3的块数超过8时，只能调度8个块？它是否与任何条件无关，如cuda环境、gpu设备或算法?如果是的话，，这实际上意味着在某些情况下最好不要使用共享内存，这取决于此。然后，我们必须考虑如何判断哪个更好，使用还是不使用共享内存

浏览 6提问于2012-04-04得票数 0

回答已采纳

1回答

本地内存比CUDA中的共享内存慢吗？

、、、、

我只发现一句话，本地内存比寄存器内存慢，寄存器内存是每线程两个类型。我想做的是一种中值滤波器，但使用给定的百分位数，而不是中位数。因此，我需要从列表中提取块，对它们进行排序，然后选择合适的块。但是我不能开始对共享内存列表进行排序，否则就会出错。仅仅复制到

浏览 1提问于2011-08-30得票数 15

1回答

将64大小的数组存储在Nvidia GPU的寄存器中合适吗？

我将编写一个块中有256个线程的库达内核，每个线程计算一对(i,j)所有的ans[i][j][k]。最经典的方法将首先将A加载到共享内存中。但是，我发现由于A将在线程中使用N次，所以在加载到共享内存后，可以进一步将A[i]加载到寄存器中，以加快计算f(A[i], B[j][N])的速度。众所周知，寄存器比共享内存更快。我已经查找了文档，发现每个线程最多可以有255个寄存器

浏览 1提问于2020-06-30得票数 0

回答已采纳

1回答

是否可以将共享内存的一部分用于每个线程？

、、

我正在Ubuntu18.04上使用CUDA 10.1，我想知道是否可以将共享内存的一部分用于每个线程。我的意思是，比方说，我希望对每个不适合寄存器的线程拥有一个相对较大的私有数组，并且将数组放入共享内存将引入竞争条件，因为块上的每个线程都可以访问它。因此，我非常感兴趣地使用共享内存的一部分作为“注册”，以避免竞

浏览 1提问于2019-10-14得票数 0

回答已采纳

1回答

在CUDA中使用cos和sin的内核在每块使用更多476个线程时失败

、、

在CUDA计算能力2.0中，我遇到了sin和cos的问题。当为CUDA计算能力1.x编译代码时，不会出现这种情况。我做了一个简单的代码。我在GeForce GTX 550 Ti和GeForce GTX 480上进行了测试，结果都是一样的。这是代码：#include <stdio.h>#include "cuda_runtime.h"

浏览 6提问于2013-09-10得票数 0

回答已采纳

点击加载更多