在cuda-gdb下运行它会导致一次执行块16的顺序执行,执行需要很长时间才能达到这个块索引,即使有条件断点也是如此。我有一个基线卷积CUDA内核,通过启动更多的块来扩展问题大小。对于具有10_000 x 10_000级大小的输入图像,存在一个bug。在cuda-memcheck下运行它,我看到以下内容。因此,在</
我最近注意到我的机器上有一些陈旧的anaconda环境(Linux Mint 18.1,是的,我知道它很古老..)因此,在摆弄了一段时间之后,我认为最简单的方法就是从头开始干净利落地安装Anaconda但我的问题就是从这里开始的:我对CUDA的版本有特定的要求,要求是9.0或9.1,并且我正在尝试编译的程序(使用cython)在它上面运行得很好。它还使用了medpy,而且运行得很好。driver:
- feature:/linux-64::__cuda