CUDA运行时错误(59)：设备端断言已触发_RuntimeError: CUDA错误:设备端断言触发- BART模型 - 腾讯云开发者社区

、、、

在CUDA中，我们不能抛出异常；但是-我们可以而且确实偶尔会遇到异常情况，在这种情况下我们无法继续，而在主机上，我们会抛出一个异常。因此，作为最好的选择，我们至少可以触发一个运行时错误，以停止不合理的工作，并指出出了问题。在CUDA内核中这样做有什么好处呢？不会导致未定义的行为一旦到达，将停止内核执行。不会触发编译器警告/错误。

浏览 0提问于2018-06-08得票数 5

回答已采纳

3回答

PyTorch中的"RuntimeError: CUDA错误:设备端断言触发“是什么意思？

、、

我已经看到了很多针对特定案例问题的特定帖子，但没有基本的激励解释。此错误是什么： RuntimeError: CUDA error: device-side assert triggered 卑劣？具体地说，什么是被触发的断言，为什么会有断言，以及我们如何反向工作来调试问题？按照原样，这个错误消息在诊断任何问题时几乎是无用的，因为它似乎是说“某些接触到GPU的代码”有问题。在这方面，Cuda的文档似乎也没有帮助，尽管我可能是错的。

浏览 0提问于2019-04-21得票数 10

回答已采纳

1回答

Windows 10、CUDA 9、：CUDA驱动程序版本不足以支持..\src\THC\THCG上的CUDA运行时版本

、、

我的环境配置： python:3.6 tensorflow-GPU 1.3 CUDA:9.0 VS:2013 torch:0.4.0 运行CUDA 9.0示例:成功但是当我运行pytorch代码时，我得到的错误信息如下：文件设备行249，返回self._apply(lambda t: t.cuda( "D:\Anaconda3\lib\site-packages\torch\nn\modules\module.py"，)) RuntimeError: cuda运行时错误(35)：CUDA驱动程序版本不足以用于..\src\THC\THCGeneral.cpp:70的CUDA

浏览 0提问于2018-12-28得票数 2

1回答

CUDA的细粒度内存检查器？

、

我怀疑我在运行的大型CUDA内核中存在细粒度内存错误。设备端printf显示了一些变量的可变值，这些值应该是确定性的。我使用的CUDA开发工具的“稳定”版本去掉了设备仿真模式，它的cuda-gdb版本不能使用模板化函数。Cuda-memcheck运行，但没有捕获任何内容。在cpu上，我会使用valgrind或电栅栏来捕获这样的内存错误。如果只有printf可用，那么有哪些调试内存错误的小窍门呢？例如，有没有一种方法可以用nans淹没整个内存空间，并使用printfs来查找它们在我的计算中首次出现的位置？

浏览 0提问于2011-05-15得票数 1

回答已采纳

6回答

CUDA运行时错误(59)：设备端断言已触发

、

我可以访问特斯拉K20c，我正在CIFAR10数据集上运行ResNet50 ...然后我得到的错误是： THCudaCheck FAIL file=/opt/conda/conda-bld/pytorch_1524584710464/work/aten/src/THC/generated/../generic/THCTensorMathPointwise.cu line=265 error=59 : device-side assert triggered Traceback (most recent call last): File "main.py", line 10

浏览 86提问于2018-08-05得票数 49

回答已采纳

1回答

火炬代码产生CUDA运行时错误

、

我的一个朋友实现了一个实际工作的稀疏版本的torch.bmm，但是当我尝试一个测试时，我有一个运行时错误(与这个实现无关)，我不明白。我见过一些关于“如果”的话题，但没有找到解决办法。下面是代码和错误： if __name__ == "__main__": tmp = torch.zeros(1).cuda() batch_csr = BatchCSR() sparse_bmm = SparseBMM() i=torch.LongTensor([[0,5,8], [1,5,8], [2,5,8]]) v=torch.Float

浏览 15提问于2017-06-20得票数 0

1回答

在出现以下CUDA错误“Cuda assert fails: device-side assert triggered”后，如何重置Colab？

、、、

我在Google Colab上使用Pytorch运行我的Jupyter Notebook。在我收到“Cuda断言失败:设备端断言触发”之后，我无法运行使用我的pytorch模块的任何其他代码。有没有人知道如何重置我的代码，让我以前工作的Pytorch函数仍然可以运行？我已经尝试实现了CUDA_LAUNCH_BLOCKING=1，但是我的代码仍然不能工作，因为断言仍然是被触发的！

浏览 2提问于2019-02-08得票数 3

回答已采纳

1回答

如何使用os.environ["CUDA_VISIBLE_DEVICES"]使用GPU_IDs使多个GPU可见

、、、

我想让几个GPU可以使用 os.environ"CUDA_VISIBLE_DEVICES“= <GPU_IDs> 以下内容对我不起作用，可能是因为GPU被分割成MIG分区。 import os os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID" os.environ["CUDA_VISIBLE_DEVICES"] = "0,1" 示例GPU ID(Nvidia)： GPU 1: NVIDIA A100-PCIE-40 GPU (UUID: GPU-b654bde8-a9

浏览 25提问于2022-07-30得票数 2

1回答

如何在CUDA设备代码中使用Try-Catch之类的内容

有没有办法在不引发CUDA错误的情况下在设备代码中执行语句？如下所示： __global__ void myKernel(float* X1, float* X2, float* Y){ try{ Y[0] = X1[0] / X2[0]; }catch(){ Y[0] = 0.0f; } } 我知道我们可以在除法之前检查X2的值，但是如果我想在不检查有效输入的情况下执行语句，并安全地执行它怎么办？

浏览 40提问于2020-02-18得票数 1

回答已采纳

2回答

在CUDA 5中对全局设备内存进行自动越界检查？

、

我最近安装了CUDA 5(如果重要的话，我正在使用Visual Studio2010学习版)。当我试图在内核中的全局内存设备阵列上执行越界读访问时，CUDA现在给我一个错误(错误30‘未知错误’)。我想知道这个看似自动越界的错误检查是否是CUDA 5的新功能。我不记得在早期版本中见过它。此外，有没有办法关闭这种自动越界错误检查？启用此功能将迫使我向内核添加额外的条件逻辑(而在此之前，我不会使用越界结果)。谢谢, Aaron

浏览 0提问于2012-12-13得票数 1

1回答

device constant const

在CUDA程序中定义设备常量的最佳方法是什么？在C++、主机/设备程序中，如果我想在设备常量内存中定义常量，我可以这样做 __device__ __constant__ float a = 5; __constant__ float a = 5; 问题1.关于装置2.x和CUDA 4，是否与， __device__ const float a = 5; 问题2.为什么在PyCUDA SourceModule(“.”)中只编译设备代码，甚至包括以下工作？ const float a = 5;

浏览 1提问于2011-11-01得票数 4

1回答

cuda错误:意外启动失败

、

我是库达的新手，我正试图在数据自动化系统上实现与的数字集成。我的代码出现了“意外启动失败”错误。它看起来像是gpu内存中某个片段的错误。但是这是非常奇怪的，因为它依赖于变量step，它控制迭代的次数，而不是任何内存操作。例如，当我使用integrate_with_cuda运行step = 0.00001时，它工作得很好，结果是正确的，但是如果我在0.000001上更改step，我的程序就会失败。这是我的密码： #include "device_launch_parameters.h" #include "cuda_runtime_api.h" #includ

浏览 2提问于2014-05-02得票数 0

回答已采纳

1回答

为什么cudaPointerGetAttributes()返回主机指针的无效参数？

我想要写一个函数来告诉我指针是主机还是设备指针。这本质上是一个围绕cudaPointerGetAttributes()的包装器，如果指针是针对设备的，则返回1或0。我无法理解的是，为什么cudaPointerGetAttributes在测试主机指针时返回无效的参数，从而导致错误检查失败。下面是一个例子。 #include <stdio.h> #include <stdlib.h> #define CUDA_ERROR_CHECK(fun)

浏览 1提问于2018-05-01得票数 3

回答已采纳

2回答

从主机释放设备上分配的内存

、

从主机函数释放设备分配的内存是否有效？我正在编写一些应该在主机和设备上使用的C++类。我的构造函数和析构函数类似于： class myClass { public: __host__ __device__ myClass() { #if defined(__CUDA_ARCH__) data = (char*)malloc(DATA_SIZE); #else cudaMalloc(&data,DATA_SIZE); #endif } __host__ __device__ ~myClass() { #if defined(__CUDA_ARCH__) free(data)

浏览 1提问于2012-09-30得票数 2

回答已采纳

1回答

数据自动化系统应用中的断点命中计数

、、

我目前正在尝试调试MSVS2012终极版中的一些设备代码。我想在代码中指定一个断点，并将其设置为只有在hitcount值高于一定值时才会中断。我了解了如何通过设置断点并向其添加条件来实现这一点，但是当我使用CUDA进行调试时，它会在第一次迭代时停止，并像非条件断点一样继续进行。日数不会增加。我觉得奇怪的是，断点击中了，但hitcount没有增加。有什么建议吗？ __global__ void rkf5() { for(int k = 0; k < numpoints; k++) { THIS IS WHERE I PUT MY BREAKPOINT.

浏览 5提问于2014-01-25得票数 0

回答已采纳

3回答

libcudart.so.7.5:无法打开共享对象文件:没有此类文件或目录

、、

我编译了它们，没有错误，但有如下警告： /usr/bin/ld: warning: libcudart.so.7.5, needed by /usr/local/lib/libopencv_core.so, not found (try using -rpath or -rpath-link) 当我尝试使用中的示例时，出现错误。 ./darknet: error while loading shared libraries: libcudart.so.7.5: cannot open shared object file: No such file or directory 我不知道怎

浏览 0提问于2017-03-02得票数 0

1回答

Ubuntu 18.04上不同版本的CUDA。有问题吗？

、、

我是一个CUDA的新手，我将非常感谢帮助/评论有关CUDA的安装。我在我的Ubuntu18.04 HP Z420机器上安装了很长一段时间:内核:5.3.0-46-泛型，Xeon E5，nVidia Quadro K600和nvidia-driver-440。我无法确定我安装了什么(apt安装nvidia-cuda-toolkit installing )的顺序，因为我安装和卸载了几次，因为经常发生错误。我认为在上一次试用中，我安装了cuda，卸载了它，并安装了nvidia-cuda-工具箱，这似乎是可行的。最后，我用两个不同的版本(10.2和9.1)获得了这样的输出。它能用吗？外部应用

浏览 0提问于2020-04-19得票数 3

2回答

从设备端代码可以触发CUDA事件吗？

、

有没有任何方法从CUDA的设备内核激发事件(用于基准测试，类似于CPU代码中的cudaEvents )？例如，假设我想测量从内核开始到启动计算的第一个线程的时间，以及从最后一个线程传递给CPU返回的时间。我能这么做吗？

浏览 6提问于2016-01-13得票数 2

回答已采纳

1回答

基于ssh连接的Cuda设备上的NumbaPro

、、、

我使用Python/NumbaPro在窗口框上使用我的CUDA遵从性GPU。我使用Cygwin作为shell，从cygwin控制台中找到我的CUDA设备没有问题。我用简单的命令进行测试 numbapro.check_cuda() 但是，当我通过OpenSSH连接到盒子(作为Cygwin设置的一部分)时，我会得到以下错误： numba.cuda.cudadrv.error.CudaSupportError: Error at driver init: Call to cuInit results in CUDA_ERROR_NO_DEVICE: 怎么解决这个问题？

浏览 1提问于2015-06-30得票数 1

回答已采纳

1回答

google colab的问题-RuntimeError:预期所有张量都在同一设备上，但至少发现了两个设备，cuda:0和cpu

、、

我是一个非常新手，在远程学习和深入学习，我遇到了一些错误，当我运行一个示例代码从深度学习课。当我运行下面附加的代码时，会出现这样的错误： text = torch.from_numpy(data['text']).long().cuda(0) # feature extraction mel_gt = get_mel(audio) # shift mel spectrogram -> the input of the network mel_shift = torch.cat((torch.zeros_like(mel_gt)[:,:,:1], mel_gt[:,:

浏览 1提问于2022-01-17得票数 2

4回答

CUDA错误: Colab上触发了设备端断言

、、

我正在尝试在启用了GPU的Google Colab上初始化张量。 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') t = torch.tensor([1,2], device=device) 但是我得到了一个奇怪的错误。 RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might be asynchronously reported at some other API c

浏览 24提问于2021-06-29得票数 13

回答已采纳

2回答

即使设备是cpu，也会发生gpu错误。

、

我试图运行一个网络(卷积，高速公路，fc，rnn)，这是太大的GPU。因此，我在全球范围内将该设备定义为"cpu“。在执行脚本时，在构建模型之后，在初始化变量时，脚本会抛出一个gpu错误。 with tf.Session() as sess: with tf.device("cpu:0"): model = CNN_FC_LANGUAGE(sess, checkpoint_dir=FLAGS.checkpoint_dir, char_embed_dim=FLAGS.cha

浏览 2提问于2016-11-29得票数 0

回答已采纳

1回答

不使用NVCC时是否使用NVIDIA的JIT编译缓存？

、、、、

我们都应该知道(但没有足够多的人这么做)，当您使用NVCC构建一个CUDA程序，并在一个设备上运行它，该设备的特定设备的完整编译(SASS)代码不包含在二进制文件中--中间PTX代码是JITed，其结果实际上用于运行内核。在此JITing期间，将启动一个，以便下次运行相同的可执行文件时，可以跳过编译，只需加载结果。现在，假设我正在编写C++文件，它在运行时动态编译内核，而不是使用NVCC，例如：我使用NVRTC的nvrtcCompileProgram()来编译CUDA C++代码，目标是一个具体的体系结构(例如sm_70)。我使用CUDA驱动程序的cuModuleLoad()加载

浏览 11提问于2022-05-16得票数 1

回答已采纳

1回答

使用TOTALVIEW调试CUDA代码时出错

、、

我试图修复一些与分割错误相关的错误。因此，当我试图通过逐步调试代码来修复错误时，我得到了以下几个错误：错误: cuda_trace_obj::initialize_cuda_library:库达初始化()返回CUDBG_ERROR_INITIALIZATION_FAILURE(20)！错误: cuda_system_status_t::initialize:错误CUDBG_ERROR_UNINITIALIZED(5)获取设备计数如有任何关于上述错误的帮助或提示，我们将不胜感激。

浏览 9提问于2012-11-25得票数 0

1回答

在执行CUDA设备代码时，在同一线程中运行主机代码

、、

在CUDA设备功能运行时，如何运行主机代码？由于CUDA运行时必须等待设备功能完成，我想知道是否有可能在此期间调用提供的主机函数委托。就像这样：在<<<function>>>调用之前启动线程对我来说不是相同的开销，.

浏览 3提问于2015-03-02得票数 4

回答已采纳

1回答

推力:排序崩溃无效参数

、、、、

我试图使用推力:对设备内存进行排序。但它会在运行时崩溃。我还试图禁用调试信息生成。下面是一个很小的例子： cudaSetDevice(0); int u[10]; int* v; cudaMalloc(&v, 10 * sizeof(int)); for (int i = 0; i < 10 ; i++) u[i] = 10-i; cudaMemcpy(u, v, 10 * sizeof(int), cudaMemcpyHostToDevice); try{ thrust::sort(thrust::device_ptr<int>(v), thrus

浏览 5提问于2015-10-19得票数 0

回答已采纳

1回答

nvidia容器cli:初始化错误: cuda错误:没有检测到cuda功能的设备。

、

我正在使用nvidia/cuda:8.0-devel映像，并试图运行它。但我得到了以下错误。 sudaraka@RnDCompute:~$ docker run -it --runtime=nvidia nvidia/cuda:8.0-devel docker: Error response from daemon: oci runtime error: container_linux.go:265: starting container process caused "process_linux.go:368: container init caused \"process_

浏览 13提问于2017-11-29得票数 8

2回答

cudaMemset在device变量上失败

我在设备变量上使用cudaMemset有困难。是否可以为cudaMemset使用对设备变量的引用，或者仅仅是缺少编译器标志或库。我正在使用cuda 4.1，而且 NVRM版本: NVIDIA UNIX x86_64内核模块285.05.33清华1月19日14:07:02 PST 2012 这是我的示例代码： #include <stdio.h> #include <stdlib.h> #include <cuda_runtime.h> // device variable and kernel __device__ float d_test; int

浏览 9提问于2012-04-03得票数 1

回答已采纳

1回答

从CUDA设备写入输出文件

、、

我是一个在CUDA编程和过程中重新编写C代码为并行的CUDA新代码的新手。是否有一种方法可以直接从设备写入输出数据文件，而不需要将数组从设备复制到主机？我想如果cuPrintf存在的话，一定要写一个cuFprintf吗？抱歉，如果前面的话题已经给出了答案，我似乎找不到. 谢谢!

浏览 0提问于2014-01-23得票数 2

回答已采纳

1回答

按位置选择CUDA GPU，但如何将默认值设置为设备0以外的其他值？

、、

我最近在家里的电脑上安装了第二个图形处理器(特斯拉K40)，我的搜索结果表明，第一个PCI插槽将成为CUDA作业选择的默认图形处理器。这里有一个很好的链接来解释它：我最初的GPU是泰坦X，也支持CUDA，但它真的是最适合单精度计算，而特斯拉更适合双精度计算。我向小组提出的问题是，是否有办法将我的默认CUDA编程设备设置为总是第二个？显然，我可以在代码中指定每次使用哪个设备，但我希望我可以配置我的设置，使其始终默认使用Tesla卡。或者，打开盒子并实际交换设备位置的唯一方法是什么？不知何故，这在我看来是错误的. 任何可以跟进的建议或相关链接都将非常感谢。

浏览 0提问于2015-07-26得票数 2

回答已采纳

1回答

返回自定义cudaError或强制从设备拷贝到主机

我有一个被多次调用的cuda内核，它将一些值添加到一个分配大小为N的数组中。我用一个设备变量跟踪插入的元素，在这个变量中我应用了atomicAdd。当附加值的数量接近N时，我希望能够知道它，这样我就可以再次调用cudaMalloc并重新分配数组。最明显的解决方案是在每次调用内核时对该设备变量执行cudaMemcpy，从而跟踪主机中数组的大小。我想知道的是，是否有一种方法可以在值接近N时仅对主机执行cudaMemcpy操作。我曾经想过的一个可能的解决方案是，如果我可以将cudaError_t返回值设置为30 (cudaErrorUnknown)，或者设置一些自定义错误，以便稍后检查。但是我还

浏览 0提问于2018-02-01得票数 0

1回答

E tensorflow/stream_executor/cuda/cuda_driver.cc:351对cuInit的调用失败: CUDA_ERROR_NO_DEVICE:没有检测到具有CUDA功能的设备

、

我已经安装了GTX 1660超级卡。然后用cudnn 7.6.4.38安装CUDA10.1，并运行以下代码‘import as tf导入os os.environ"CUDA_DEVICE_ORDER“= "PCI bus 1”os.environ"CUDA_VISIBLE_DEVICES“= "1” A= tf.constant(1.0，2.0，3.0，4.0，5.0，6.0，shape=2，3，name='a') b= tf.constant(1.0，2.0，3.0，4.0，5.0，6.0，shape=3，2，name='b')

浏览 4提问于2020-04-28得票数 2

回答已采纳

1回答

NVIDIA安培GPU架构兼容性

请任何人帮助我理解NVIDIA设备系列30安培架构和兼容的CUDA版本？从这里到整个网络，我了解到在CUDA工具包中添加了对安培的v11支持：我不明白的是，这样做有什么意义：部分 “1.3.1.使用CUDA工具包10.2或更早版本构建的应用程序” 那么，‍♂️是否适用于CUDA 10.1呢？非常感谢

浏览 9提问于2022-11-30得票数 1

2回答

NVIDIA TV的Ubuntu - CUDA驱动程序版本不足以支持CUDA运行时版本

、、、、

我想用NVIDIA电视作为测试一些数据自动化系统代码的设备。我尝试过编写Android + CUDA代码，但是在链接时，我遇到了与“硬浮动”和“软浮动”arm/android/cuda库有关的问题。所以，我在NVIDIA电视上安装了Ubuntu。 ubuntu@tegra-ubuntu:~/devel/cuda/hello$ uname -a Linux tegra-ubuntu 3.10.96 #1 SMP PREEMPT Thu Oct 13 05:30:55 EDT 2016 aarch64 aarch64 aarch64 GNU/Linux 我还将CUDA推到使用JetPack fo

浏览 3提问于2016-11-30得票数 0

回答已采纳

1回答

cudaStreamAddCallback不会阻止以后的cudaMemcpyAsync

我试图让cudaMemcpyHost2Device通过使用cudaStreamAddCallback等待一些特定的事件。我发现了关于cudaStreamCallback API的评论回调将阻止以后在流中工作，直到它完成为止。因此，以后的工作，如cudaMemcpyAsync被阻止，是预期的。但是后来的代码断言失败了。 #include <cuda_runtime.h> #include <stdlib.h> #include <string.h> #include <cassert> #include <unistd.h>

浏览 0提问于2018-06-18得票数 0

回答已采纳

1回答

为什么我在colab中使用cpu而不是cuda运行脚本？

、、、

为什么即使在第一个命令中，colab也会为所有检查输出打印false。如果我不运行此脚本，colab将为cuda.is_available()返回True。原因何在？ if __name__ == "__main__": print(torch.cuda.is_available()) parser = argparse.ArgumentParser('parser') parser.add_argument("--device", type=int, required=True) parser.add_argument("--ckp

浏览 7提问于2021-06-07得票数 0

1回答

如何将分配给设备功能的内存复制回主内存

我有一个包含主机函数和设备函数执行()的CUDA程序。在主机函数中，我分配一个全局内存输出，然后将其传递给设备函数，并用于存储在设备函数中分配的全局内存的地址。我想访问主机函数中内核中分配的内存。以下是守则： #include <stdio.h> typedef struct { int * p; int num; } Structure_A; __global__ void Execute(Structure_A *output)

浏览 5提问于2012-10-24得票数 1

回答已采纳

1回答

如何使用CUDA_FORCE_PTX_JIT？

、、

根据NVIDIA编程指南：运行时由应用程序加载的任何PTX代码将由设备驱动程序进一步编译为二进制代码。这就是所谓的即时编译。即时编译增加了应用程序的加载时间，但允许应用程序从最新的编译器改进中获益. ..。将CUDA_FORCE_PTX_JIT设置为1，将迫使设备驱动程序忽略嵌入在应用程序中的任何二进制代码(请参阅3.1.4节)，并立即编译嵌入式PTX代码；如果内核没有嵌入PTX代码，它将无法加载。我使用以下标志编译了我的简单vectorAdd： nvcc -o vectorAdd -gencode arch=compute_20,code=sm_20 vectorAdd

浏览 4提问于2013-01-27得票数 0

回答已采纳

2回答

在CUDA9中，"cudaMemcpyAsync()“既是设备又是主机函数吗？

、、

根据，我们有 __host__ __device__ cudaError_t cudaMemcpyAsync ( void* dst, const void* src, size_t count, cudaMemcpyKind kind, cudaStream_t stream = 0 ) 这意味着它既是一个主机也是一个设备功能。但是，在本地Linux盒上的实际安装中，我在/usr/local/cuda/include/cuda_runtime_api.h中看到了 /** CUDA Runtime API Version */ #define CUDART_VERSION 9000 /

浏览 1提问于2018-02-02得票数 0

1回答

Nsight 2.2有时有效有时不起作用

、、

我有关于Parallel Nsight 2.2调试器的问题。这是非常奇怪的，我不知道如何描述它。无论如何，它有时有效，有时不起作用。我观察到的是，它与动态数组一起工作(该数组对cuda_kernels或任何其他函数，如cudaMemcpy atc……)没有影响。使用3个元素命名。这一点很重要。如果我在4+上设置大小，它就会掉下来，没有错误，什么都不会掉下来。有趣的事实是，如果我通过正常的调试器洞程序正常运行它，那么它就会正确地工作并得到正确的结果。另一个有趣的事实是，当将此数组设置为静态时未签名的topology4；和设置相同的值，Nsight调试器工作，但非常慢。所以，首先，我注释

浏览 0提问于2012-11-13得票数 1

1回答

如何确定cudaErrorIllegalAddress是由目标地址还是源地址造成的？

、、、

说：设备在无效的内存地址上遇到加载或存储指令。这将使该过程处于不一致的状态，任何进一步的CUDA工作都将返回相同的错误。为了继续使用数据自动化系统，必须终止和重新启动这一进程。在我的C++代码中，我调用： cudaMemcpy( dst, src, size, kind ); 如何确定无效内存是dst还是src？运行cuda-memcheck没有报告错误，valgrind没有报告错误。考虑到只有在使用-g -G构建时才会发生这种崩溃，那么我还可以采取哪些步骤来进一步调试呢？设备代码中是否有一种方法来检查是否发生了cudaErrorIllegalAddress，这样我就可以分治设

浏览 0提问于2019-03-28得票数 0

2回答

cudaGetLastError返回(0xb)

、

我正在尝试解决CUDA运行时错误。由cuda-gdb报告的调试信息(带有cuda-memcheck )： warning: Cuda API error detected: cudaLaunch returned (0xb) warning: Cuda API error detected: cudaGetLastError returned (0xb) [Thread 0x7fa1a28c5700 (LWP 43041) exited] [Thread 0x7fa1a16a5700 (LWP 43042) exited] [Thread 0x7fa18df0e700 (LWP 430

浏览 4提问于2014-03-12得票数 4

回答已采纳

1回答

访问CUDA中的结构化成员？

、、

对于简单化，假设我有这样的结构： someheader.h typedef struct { float x }someStruct; 在Cuda中，如果结构是由C++应用程序共享的，那么设备函数将如何访问该结构的成员？例如： __global__ void stuff( someStruct *g ) { g[0].x = 0.4f; } 这样做对吗？它似乎不起作用。

浏览 2提问于2011-02-27得票数 0

2回答

如何管理CUDA内存？

、、

当我运行只分配少量全局内存(低于20 M)的CUDA程序时，我得到了一个“内存不足”错误。(从其他人的帖子中，我认为问题与内存碎片有关)我试图理解这个问题，并意识到我有几个有关CUDA内存管理的问题。在CUDA中是否存在虚拟内存的概念?如果只允许一个内核在CUDA上同时运行，在其终止后，它所使用或分配的所有内存会被释放吗？如果没有，这些内存何时释放？如果允许多个内核在CUDA上运行，如何确保它们使用的内存不重叠？有人能帮我回答这些问题吗？谢谢编辑1:操作系统: x86_64 GNU/Linux版本: 4.0设备: Geforce 200，它是附在机器上的GPUS之一，我不认为它是一个显示

浏览 4提问于2011-12-30得票数 27

回答已采纳

1回答

CUDA图形流捕获与推力：：减少

、、

当我试图捕获流执行以构建CUDA图时，调用thrust::reduce会导致运行时错误cudaErrorStreamCaptureUnsupported: operation not permitted when stream is capturing。我已经尝试将缩减结果返回给主机和设备变量，并且我正在通过thrust::cuda::par.on(stream)的方式在适当的流中调用缩减。有没有方法可以将thrust函数的执行添加到CUDA图中？

浏览 18提问于2020-04-01得票数 0

回答已采纳

1回答

GPU计算导致驱动程序错误“停止响应”

、、、、

我在这里有一个无聊的脚本，我正在MATLAB R2013b中执行： clear all; n = 2000; times = 50; i = 0; tCPU = tic; disp 'CPU::' A = rand(n, n); B = rand(n, n); disp '::Go' for i = 0:times CPU = A * B; end tCPU = toc(tCPU); tGPU = tic; disp 'GPU::' A = gpuArray(A); B = gpuArray(B); disp '::Go

浏览 7提问于2014-02-23得票数 2

回答已采纳

1回答

为什么在这段代码中我会看到device[1]的表转储: NVIDIA Tesla GPU 0？

、、、、

下面是一个头文件DataHolder.h： #ifndef DATAHOLDER_H #define DATAHOLDER_H using FloatingType=float; int LIFE=0; const int GL=2000000; template <typename Floating> class DataHolder { public: Floating particles[GL]; public: DataHolder(){} ~DataHolder(){} void Propagate(); void InitParticle(); }; t

浏览 3提问于2019-08-05得票数 0

回答已采纳

1回答

MPI+CUDA混合编程驱动程序错误

、、

我使用MPI+CUDA混合模式来编写一个GPU集群的矩阵乘法程序。当我通过MPI和CUDA将乘法操作卸载到GPU时，它会在运行时给出一个错误消息：致命:插入nvidia (/lib/modules/3.2.0-23-generic-pae/kernel/drivers/video/nvidia.ko)：无此设备时出错 MPI用于传输数据块，然后在接收数据时调用一个通用C函数来触发CUDA内核。测试设置有3台机器，每台都有一个GPU。我只测试了一个CUDA的本地版本。我没有收到任何错误消息，但是算法的答案是错误的(即使是对于小的简单算法)。这个错误的原因是什么？请注意，这是只有当我尝试使用M

浏览 4提问于2013-12-20得票数 0

回答已采纳

1回答

CUDA-GDB:无CUDA设备

、

我正在尝试调试一个源代码，它工作得很好，并且在编译时不会出现错误或警告。问题是，当我使用cuda-gdb一步一步地运行它时，根本没有启动CUDA内核(我从调试器得到的输出与Nvidia cuda-gdb指南中显示的完全不同)，但程序仍然可以正常工作，没有任何错误。在任何时候我都得不到CUDA内核、设备或线程。显然，焦点也没有放在任何事情上。我使用的是CUDA-GDB的4.2版本。这是我在调试器应该启动内核时得到的结果： Breakpoint 1, matrixMulGPU (M=0x609160, N=0x609270, P=0x609490, Width=8) at matrixM

浏览 5提问于2012-07-24得票数 0

2回答

GPU上的Theano :64位Windows 7上的配置

、、、、

我在64位Windows 7工作站上运行Python 2.7 (Anaconda发行版)，并试图让Theano (v0.7.0)在NVIDIA Quadro 2000 GPU上运行，用于机器学习应用程序。这是我要做的事：据我所知，我已经安装了CUDA v6.5，并向Windows path环境变量添加了所有必需的路径。我已经阅读了CUDA安装指南()，并成功地通过了每个测试，这表明CUDA工具包正在与GPU通信。我还安装了Visual 12.0，并将路径设置为以下目录： C：\程序文件(X86)\ 12.0\ C:\Program (X86)\ 12.0\VC\bin\ C:\Pr

浏览 3提问于2015-10-15得票数 1