如何获取cuda设备的核数？_如何查看docker容器使用的核数？_如何动态分配每个节点的核数？ - 腾讯云开发者社区

c、cuda、nvidia

我正在寻找一个函数，可以计算我的cuda设备的核心数量。我知道每个微处理器都有特定的核心，而我的cuda设备有两个微处理器。我搜索了很多次，想找到一个属性函数来计算每个微处理器的内核数量，但是我不能。我使用了下面的代码，但是我仍然需要内核的数量？cuda 7.0 编程语言C visual studio 2013 代码： void printDevProp(cudaDeviceProp devProp

浏览 254提问于2015-09-12得票数 23

回答已采纳

2回答

我不能在CUDA内核中设置断点

cuda、nsight

我是NSIGHT和CUDA的新手。我试图在我的CUDA内核代码中设置一个断点，但我不能--断点是在内核的末尾设置的，而不是在我想调试的特定行上设置的。我正在使用VS2010 (MFC项目)与NSIGHT 2.2和CUDA 4.2。我使用“生成设备调试

浏览 3提问于2013-02-27得票数 1

回答已采纳

1回答

为什么在我的Compute Capability 2.0 GPU上，每台多处理器1536的最大线程？

cuda、gpu

在我的GPU上，使用Capability 2.0，每个多处理器的最大线程数是1536个。为什么不是2的力量？下面是我的GPU的一些细节：Threads per Warp

浏览 5提问于2017-05-10得票数 1

1回答

流多处理器，每个流处理器在cuda中的核心

optimization、cuda

对于不同的nvidia显卡，在不同的流多处理器数量和不同的处理器核数的情况下，每个流处理器具有不同的特性。我认为我们需要更好地利用设备属性来进行更好的优化。在<em

浏览 3提问于2014-04-22得票数 4

回答已采纳

2回答

如何在CUDA FORTRAN中生成随机数？

random、cuda、fortran

我正在寻找一种简单的方法来为多线程并行生成0.0和1.0之间的随机浮点数。到目前为止，这是我的内核。我甚至不确定是否有任何用于CUDA FORTRAN的随机数库。我只需要向正确的方向推动，然后我就可以给自己写一个像样的随机数生成器。谢谢你的帮助

浏览 0提问于2011-02-04得票数 2

回答已采纳

3回答

安装Cuda NVIDIA图形驱动程序失败

cuda、cuda.net

我是使用CUDA编程的初学者，我想知道我能不能编译和运行我的CUDA程序而不用安装Nividia驱动程序？Cuda工具包和SDK成功地安装在我的机器上，但是whenI运行我的程序，我无法设置我的Cuda设备。这是否意味着我需要安装Nividia驱动？字节)( 2)多处理器x(192个) CUDA核/MP: 384个CUDA核GPU

浏览 1提问于2012-08-11得票数 7

1回答

有多少线程(或工作项)可以同时运行？

opencl、gpgpu

我是新的GPGPU编程，我正在与NVIDIA实现的OpenCL。如何在我的卡片上获得工作组的数量(并且可以同时运行)和在一个工作组上的工作项的数量？与CL_DEVICE_MAX_COMPUT

浏览 5提问于2011-04-15得票数 19

1回答

cuda中的临时设备指针、重用固定的设备指针或创建和释放设备指针的更好实践是什么？

cuda

在cuda内核函数中，没有自动垃圾收集。Cuda中临时设备指针的更好实践是什么？重用固定的设备指针，还是创建和释放设备指针？例如，要为两个向量之间的平方误差和编写一个Cuda核函数，更方便的是有一个临时设备指针来存储两个向量的差异，然后将这个临时设备指针的元素平方和起来。一个选项是为每个函数调用分配一个临时设备

浏览 2提问于2017-01-24得票数 0

回答已采纳

1回答

如何设置虚拟环境来运行tensorflow基准测试

python、tensorflow、benchmarking

我的目的是设置虚拟环境来运行，但在运行以下代码后，我在最后一条语句中得到一个错误。我可以问一下我应该怎么做来解决这个问题吗？仅供参考:我使用的是Python 3.6.7，其中只安装了pip和virtualenv包，并安装了CUDA 9.2/cuDNN7 (系统路径中的所有dll)。

浏览 36提问于2018-12-05得票数 0

回答已采纳

1回答

如何使用CuPy在图形处理器上运行python？

python、gpu、cupy

() cp.cuda.Stream.null.synchronize()() cp.cuda.Stream.null.synchronize() batch_labels = cp.array(dataset_labels[start_range:end_range]) cp.cuda</em

浏览 53提问于2020-02-02得票数 4

回答已采纳

2回答

报告CUDA加速的正确方法

cuda

我想比较在CPU上运行的串行程序和在GPU上运行的CUDA程序的性能。但我不确定如何公平地比较性能。例如，如果我将旧CPU和新GPU的性能进行比较，那么我将获得巨大的加速比。另一个问题:如何将我的CUDA程序与论文中报告的另一个CUDA程序进行比较(两者都运行在不同的GPU上，并且我无法访问源代码)。

浏览 0提问于2012-09-26得票数 2

回答已采纳

2回答

如何获取iOS设备硬件规格？

ios、objective-c、iphone、ipad

从代码中获取iOS设备CPU、GPU和内存信息的最佳方式是什么？我想知道它有多少个核心，cpu有多少个GHz等等。谢谢。

浏览 0提问于2014-07-31得票数 0

1回答

只允许在具有多核处理器的设备上安装Android应用程序。

android、multiprocessing、cpu、cpu-cores

是否有可能使Android应用程序只在具有多核处理器的设备上可用/可安装？我知道一个应用程序可以为某些Android版本和硬件规格，如前置摄像头。以编程方式解决这一问题的一种方法是通过调用Runtime.getRuntime().availableProcessors()来获取设备上的核数，然后在设备不满足我的要求时完成该活动，但这可能不是正确的方法那么，我该如何在谷歌批

浏览 0提问于2016-02-07得票数 0

回答已采纳

1回答

有没有办法通过编程的方式知道我们的CUDA代码在哪个GPU上运行？

cuda、gpu

我想知道我的CUDA内核将在哪个GPU上运行，这样我就可以通过编程来决定要使用的最佳块大小，以便最大化任何算法的GPU实现的性能。

浏览 0提问于2018-10-28得票数 2

1回答

将结构复制到设备内存CUDA

c++、cuda

我是数据自动化系统的新手，并且浏览过数据自动化系统的工具包文档。在这里，我发现了一个例子，矩阵乘法使用共享内存。这里，当将矩阵结构从主机内存复制到设备内存时，只复制数据元素。我无法理解的是其他变量是如何被复制到设备内存中的。、步幅和高度是如何复制到设备内存中的。在理解这件事的过程中，我是否错过了什么。BLOCK_SIZE * row

浏览 3提问于2016-11-09得票数 2

回答已采纳

1回答

关于CUDA的架构(SM，SP)

c++、c、visual-studio、cuda、gpgpu

我是一个刚刚开始CUDA程序的人。现在还不知道SP是否是SM中的任何项。我认为项目"(14)多处理器，(8) CUDA核心/ MP“，这是正确的SP和SM，但我将正确理解以下几点？CUDA设备</e

浏览 0提问于2013-10-17得票数 5

1回答

Ubuntu18.04.1-Cuda10.1安装，将nvidia驱动程序更新为455，与tensorflow不兼容，

drivers、apt、nvidia、cuda、tensorflow

下面是我用于安装cuda 10-1的步骤去除"cublas“"cuda*”"nsight*“sudo apt-自动删除sudoapt-获取自动清洗sudo rm -rf /usr/local/cuda*在此之后，我按照tensorflow页面上的说明进行操作。-450 数多apt-获取</

浏览 0提问于2020-10-07得票数 2

1回答

如何在Cuda内核上启用RT核？

cuda

通过阅读，我了解到GeForce RTX模型有RT核和张量核。我的问题是，在我的code代码中使用了哪些核心？我能控制它吗？我有一个射线追踪内核，想从RT内核中受益吗？RT核心是默认使用的，还是有一个标志来启用它？

浏览 1提问于2020-10-16得票数 1

回答已采纳

1回答

CUDA主机到设备的传输比设备到主机的传输更快

cuda

我正在做一个简单的cuda程序，在这个程序中，我发现90%的时间来自于一个单一的语句，这是一个从设备到主机的cudamemcpy。该程序在600-700微秒内将大约2MB的数据从主机传输到设备，并在10ms内将4MB的数据从设备复制回主机。我的程序总共花费了13ms的时间。我的问题是，为什么在设备到主机和主机到设备的</

浏览 3提问于2012-07-15得票数 4

2回答

显示驱动程序本身使用了哪些CUDA资源？

cuda、nvidia

根据该规范，该卡有15个流多处理器(SM)，每个处理器有32个CUDA核。我的代码使用N块，每个块有32个核。理想情况下，如果是N <= 15，我预计，由于每个块可以分配给不同的SM，每个块的运行速度与单个块一样快。对于'N > 15'，当各块开始共享SMs时，每个块的性能都会下降。这也几乎是我在实践中观察到的:每个单独块的性能从N = 12开始下降，性能在N = 57时停滞，也就是说，好像有三个额外

浏览 3提问于2012-05-07得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云