CUDA中的threadIdx.x值总是从0开始？_word时间戳总是连续的并且总是从0开始吗？_显示从0开始的月份值的DatePicker - 腾讯云开发者社区

、、、、

我是CUDA程序的新手。我目前正在对大量的大数据样本进行蒙特卡罗模拟。我试图动态最大化和计算提交给GPU的块数。我的问题是，我不清楚如何计算最大数量的块，我可以提交我的GPU在同一时间。下面是我的GPU在查询它时的输出： ----------------------------------------------- CUDA Device #: 0 Name: NVIDIA GeForce GTX 670 Revision number: 3.0 Warp size:

浏览 5提问于2022-08-07得票数 0

回答已采纳

1回答

理解索引和块中有多少线程

、、

我正在研究cuda编程，我发现索引网格的方法不止一种。我不明白的是，这些索引技术在彼此之间是如何不同的。这些是我的索引：一维块网格 th=blockIdx.x *blockDim.x + threadIdx.x; 二维块的一维网格 th=blockIdx.x * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x; 三维块的一维网格 th =blockIdx.x * blockDim.x * blockDim.y * blockDim.z + threadIdx.z * blockDim.y * blockDi

浏览 1提问于2019-06-07得票数 3

回答已采纳

2回答

关于CUDA Warps的简单代码

我在Cuda Documentaion中读到，在Cuda Documentaion中，每个块线程在一批称为warps的32个线程中执行，每个线程指向相同的指令，但可以访问多个数据，我的任务是测试语句的真实性。现在我所做的是启动一个有256个线程和一个块的内核，所以必须执行8批warps。我将创建一个大小为32的共享变量，并将其赋给 sharedVariable [ threadIdx.x % 32 ] = threadIdx.x /32; 然后将该变量赋给256字节长度的全局变量： outputPointer[ threadIdx.x ] = sharedVariable [ threa

浏览 2提问于2014-02-03得票数 0

1回答

CUDA优化网格步长环块数

、、、

我已经开始使用CUDA实现一个简单的一维数组计算。在文档之后，我首先尝试定义最佳块数和块大小。 ... int N_array = 1000000 ... int n_threads = 256; int n_blocks = ceil(float(N_array / n_threads)); dim3 grid(n_blocks, 1, 1); dim3 block(n_threads, 1, 1); ... 对于内核，我使用了nvidia博客中建议的网格跨步方法。 ... int global_idx = blockIdx.x * blockDim.x + threadIdx.x; in

浏览 2提问于2022-07-11得票数 0

回答已采纳

1回答

什么是说GPU在使用中，因为低占用？

、、

我正在使用NUMBA和cupy来执行GPU编码。现在，我已将代码从V100 NVIDIA卡转换为A100，但随后收到以下警告： NumbaPerformanceWarning:网格大小(27) <2* SM计数(216)可能会导致GPU由于占用低而利用率不足。 NumbaPerformanceWarning: CUDA内核中使用的主机数组将导致设备复制开销。有人知道这两条警告的真正含义吗？那么我应该如何改进我的代码呢？

浏览 6提问于2021-12-09得票数 1

1回答

有效的最小GPU线程数

、

我将在CUDA上并行化一些优化问题的局部搜索算法。这个问题非常困难，所以实际可解问题的规模很小。我担心的是，计划在一个内核中运行的线程数量不足以在GPU上获得任何加速(即使假设所有线程都聚合在一起，没有库冲突，无分支等)。假设为100个线程启动一个内核。期望从使用GPU中获得任何利润是否合理？如果线程数是1000，该怎么办？需要哪些额外信息来分析此案例？

浏览 0提问于2011-08-12得票数 6

回答已采纳

1回答

、

评论/说明我能有更多的线程块超过最大数量的CUDA核心吗？经纱尺寸与我在做什么有什么关系？开始我正在使用以下代码运行一个cuda程序来启动cuda内核： cuda_kernel_func<<<960, 1>>> (... arguments ...) 我认为这将是我可以做的事情的限制，因为我在笔记本电脑上有一个GTX670MX图形处理器，根据Nvidia的网站，它有960个CUDA核心。因此，假设程序会崩溃，我尝试将960更改为961。它没有..。这里发生了什么事？这是deviceQuery的输出 ./deviceQuery S

浏览 11提问于2015-10-18得票数 0

1回答

CUDA :意外的printf行为

我不明白我在CUDA内核中使用printf所观察到的行为。有人能解释一下这件事吗？如果这是正常的，那为什么呢？是否有办法确保在内核内修改数据(调试)之前将数据打印出来？以下是代码： ~>more * :::::::::::::: Makefile :::::::::::::: all: nvcc -o WTF.cu.o -arch=sm_21 -c WTF.cu g++ -o WTF.exe -I/usr/local/cuda/include WTF.cpp WTF.cu.o -L/usr/local/cuda/lib64 -lcuda -lcudart :::::::

浏览 4提问于2013-05-13得票数 0

4回答

CUDA调试："CUDA网格启动失败“

、、、

当我尝试调试任意的CUDA应用程序，例如Nvidia GPU计算SDK4.0中的矩阵乘法或convolutionSeparable示例时，我总是得到类似于以下内容的输出： Parallel Nsight Debug CUDA grid launch failed: CUcontext: 2059192 CUmodule: 348912936 Function: _Z9matrixMulILi32EEvPfS0_S0_ii …… …… 并显示一个具有以下内容的文件： Parallel Nsight CUDA Debugger 使用Nexus CUDA

浏览 5提问于2011-10-17得票数 3

2回答

一些基本数据自动化系统查询

、、

我是Cuda开发方面的新手，我决定开始编写小示例，以了解它是如何工作的。我决定分享我所做的核函数，并计算两个大小相等的矩阵的对应行之间的平方欧几里德距离。 __global__ void cudaEuclid( float* A, float* B, float* C, int rows, int cols ) { int i, squareEuclDist = 0; int r = blockDim.x * blockIdx.x + threadIdx.x; // rows //int c = blockDim.y * blockIdx.y + threadIdx.y

浏览 1提问于2013-10-01得票数 0

回答已采纳

1回答

火炬速度比较- GPU比CPU慢

、

我试图找出GPU张量运算是否比CPU操作快。因此，我在下面编写了这个特定的代码来实现简单的2D添加CPU张量和GPU cuda张量，以查看速度差异： import torch import time ###CPU start_time = time.time() a = torch.ones(4,4) for _ in range(1000000): a += a elapsed_time = time.time() - start_time print('CPU time = ',elapsed_time) ###GPU start_time = time.ti

浏览 1提问于2018-11-15得票数 10

3回答

为什么我的CUDA实现速度与我的CPU实现速度一样快？

、、、

我创建了一些代码在1300x1300灰度图像和15x15内核(标准C++和CUDA中)上做2D卷积。这两个版本： CPU： #include <iostream> #include <exception> #define N 1300 #define K 15 #define K2 ((K - 1) / 2) template<int mx, int my> inline int index(int x, int y) { return x*my + y; } int main() { double *image = new double[

浏览 4提问于2015-04-24得票数 4

回答已采纳

2回答

Cuda编程与C程序设计的比较

、、

我对cuda编程很陌生。在理解cuda代码方面，我没有什么问题。我正在从以下链接学习cuda教程：基本上，他们试图将一个数组传递给一个函数，并将7分配给该数组的每个索引。在C语言中，我们通常使用for循环来完成 for(int index = 0; index < num_elements; ++index) { array[index] = 7; } 在CUDA中，本教程说它是这样做的： __global__ void kernel(int *array) { int index = blockIdx.x * blockDim.x + threadIdx.x;

浏览 7提问于2015-07-09得票数 2

回答已采纳

1回答

CUDA核心可以完全并行运行，还是需要上下文切换？

、、、

一个CUDA INT32核心可以处理两个不同的整数指令完全并行，不需要上下文切换？我知道这在CPU上是不可能的，而是在NVIDIA GPU上吗？我知道SM可以运行warps，如果核心必须等待一些信息，那么它将从调度单元获得另一个线程。

浏览 6提问于2022-09-23得票数 1

回答已采纳

1回答

cuda内核未执行或返回错误

、

我有一些通过一些FFT和其他数学操作运行的cuda代码，它们根据用户的请求在2^n的块上工作。代码在第一次运行时运行良好，但在运行足够长的时间后，它开始失败。最终，如果我运行任何大于2^ll的块，我将得不到任何数据(全为零)。我已经通过修改内核代码进行了一些测试，从我可以看出内核没有执行。我试图弄清楚为什么我的代码在对大块大小进行多次迭代后停止生成数据。乍一看，这个问题是内存泄漏。我知道我必须运行处理的多次迭代才能导致错误。起初，只有较大的块大小将停止工作，但随着我运行更多的迭代，较小的块大小也将开始失败。我不确定问题出在内存上的原因是，无论我运行多少次迭代，我的代码都可以在小于2^11的块

浏览 0提问于2011-06-04得票数 0

回答已采纳