Pascal Titan X/ GP102上的CUDA 8统一内存

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

0回答

、

表示，CUDA8改进了Pascal GPU上的统一内存支持，以便“在支持的平台上，使用默认操作系统分配器(例如‘malloc’或‘new’)分配的内存可以使用相同的指针从GPU代码和CPU代码访问”。X (Pascal) Off | 0000:01:00.0 Off | N/A | | 36% 61C

浏览 12提问于2017-01-11得票数 0

回答已采纳

1回答

重置CUDA数组的值

、、

cudaMemset(d_A, 0, K*K*sizeof(unsigned int) ) cudaMemcpyToArray(cu_A, 0, 0, d_A, K*K*sizeof(unsigned int)

浏览 4提问于2017-10-25得票数 1

回答已采纳

1回答

如何使用cudaStream_t访问nvprof中看到的数字流in？

、

在nvprof中，我可以看到我使用的每个cuda执行流的流I (0、13、15等)。给定一个流变量，我希望能够打印出流ID。目前，我找不到任何API来这样做，并且将cudaStream_t转换为int或uint不会产生合理的ID。sizeof()说cudaStream_t是8个字节。

浏览 5提问于2017-05-30得票数 4

回答已采纳

1回答

CUDA 8和Pascal体系结构下的GPU内存分配

、

Pascal体系结构通过升级统一内存行为为CUDA开发人员带来了一个惊人的特性，允许他们分配比系统上可用的GPU内存大得多的内存。我只是好奇这是如何在引擎盖下实现的。我已经用"cudaMallocManaging“(一个巨大的缓冲区)测试了它，nvidia-smi没有显示任何东西(除非缓冲区大小低于可用的GDDR)。

浏览 6提问于2016-09-02得票数 0

回答已采纳

1回答

使用mpirun -np X和tensorflow: X受GPU数量的限制吗？

、、、

X (Pascal)pciBusID 0000:01:00.02017-09-24 17:29:12.987133: I tensorflow/core/common_runtime/gpu/gpu_device.cc:955] Found device 0 with p

浏览 2提问于2017-09-25得票数 0

回答已采纳

1回答

在计算能力5.0中，如何通过CPU和GPU同时访问托管内存？

、

由于在计算能力低于6.x的设备上同时访问托管内存是不可能的，是否有一种方法可以在GPU内核运行时通过CPU和GPU以计算能力5.0来模拟访问托管内存或使CPU访问托管内存。

浏览 0提问于2019-01-22得票数 0

回答已采纳

2回答

Keras和GPU使用

、、

我使用的是带Theano后端的keras 1.1.0。导入keras后会显示以下消息：/home/library_pythonX (Pascal) On | 0000:02:00.0 Off | N/A | | 36% 63C P2 8

浏览 5提问于2017-05-06得票数 3

1回答

在多个GPU上训练tensorflow会使计算机崩溃

我们使用以下硬件配置使用tensorflow运行多个GPU训练：cuda 88 titan X pascal训练代码基于tensorflow/models github存储库中发布的slim。但是，一旦我们用完了所有8个GPU，计算机就会崩溃。这可能是什么原因呢？

浏览 1提问于2016-12-15得票数 1

1回答

统一内存与固定主机内存的行为与性能

、、、、

我认为这个程序的主题，与问题无关；但我必须提到，我的教授在我的程序中看到我试图创建CUDA智能指针类后，建议我使用统一的内存。最好将这个类描述为“指向数组的唯一指针”，这满足了RAII的成语。在检查了CUDA 6.0发布的统一内存(以及在CUDA 8.0中引入的更新)之后，我对是否应该切换到统一内存</

浏览 0提问于2017-04-15得票数 4

回答已采纳

1回答

我目前正在尝试Tensorflow的初始模式，虽然它确实使用GPU来生成瓶颈，但它似乎没有对其进行任何训练。通过nvidia-smi监控GPU的使用情况，它保持在0%。log_device_placement在大约80%的操作中返回gpu:0，所以看起来很好。一开始它确实用通常的/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name: TITAN X (Pascal</e

浏览 2提问于2017-03-28得票数 2

2回答

-ta=tesla:managed:cuda8但cuMemAllocManaged返回错误2:内存不足

、

这适用于8GB，但当我增加到10 GB时，就会出现内存不足的错误.我的理解是，使用Pascal (这些卡是)和CUDA 8的统一内存，我可以分配一个大于GPU内存的数组，硬件将按需分页。启用统一内存”部分，我使用以下方法编译它： $ pgcc -acc -fast -ta=tesla:managed:cuda8

浏览 2提问于2017-05-02得票数 0

回答已采纳

1回答

分析器(nvvp和nvprof)没有显示“页面故障”信息

、、、

我正在分析在NVIDIA的开发者论坛上展示在上的测试代码。代码：#include <math.h> __global__{ int index = blockIdx.x * blockDim.x + threadId

浏览 3提问于2021-11-29得票数 0

回答已采纳

2回答

在同一个GPU上运行多个tensorflow进程是否不安全？

、、、

我只有一个GPU (Titan X Pascal，12 GB VRAM)，我想在同一个GPU上并行训练多个模型。我尝试将我的模型封装在一个单独的python程序中(称为model.py)，并在model.py中包含代码以限制VRAM的使用(基于)。我能够在我的图形处理器上同时运行3个model.py实例(每个实例占用我虚拟内存的33% )。令人费解的是，当我尝试4个模型时，我收到了

浏览 4提问于2017-09-11得票数 11

1回答

基于码头的Nvidia渲染

、、、、

我有一个ubuntu20.04服务器与nvidia驱动程序的启动和运行。服务器是无头的。X (Pascal) Off | 00000000:01:00.0 Off | N/A |sudo docker run -v /tmp&#

浏览 0提问于2020-11-24得票数 1

3回答

为什么NVIDIA Pascal* GPU在使用cudaMallocManaged时运行CUDA内核速度慢*

、、、、

我正在测试新的CUDA 8和Pascal GPU，并期待我的代码加速，但由于某种原因，它最终会变慢。我在Ubuntu 16.04。NVCC标志，Pascal Titan X的标志是：对于旧的麦克斯韦泰坦X是： -gencode arch对于Pascal来说，内存传输<e

浏览 6提问于2016-09-30得票数 11

回答已采纳

1回答

带有映射内存、统一虚拟寻址和统一内存的GPU内存过度订阅

、、、、

我正在考虑在GPU上处理数据的可能性，这对GPU内存来说太大了，我有几个问题。如果我正确地理解了这一点，使用映射内存，数据驻留在主内存中，并且只有在访问时才被传输到GPU，所以分配给GPU内存不应该是一个问题。 UVA类似于映射内存，但是数据可以存储在CPU和GPU内存中。但是GPU是否有可能在满有自己的数据的同时访问主内存(就像映射内存一样)？在这种情况下会发生内存</e

浏览 3提问于2017-09-20得票数 2

回答已采纳

1回答

cudaMemPrefetchAsync bug on GTX1080 (Pascal)？

、

在我的机器上，下面代码中对cudeMemPrefetchAsync的调用返回10 (cuda错误，设备无效)，而不是0。安装程序是一台运行Windows10的Alienware17笔记本电脑，配备NVidia GTX1080GPU和板载英特尔高清显卡530。使用来自NVidia的驱动器376.19 (移动驱动器))。另一个用户尝试在Pascal架构(Titan X)上运行相同的代码，结果正确返回0。

浏览 0提问于2016-12-12得票数 2

1回答

CURAND_STATUS_LAUNCH_FAILURE + CUDA* 7.5*

、、、

我的代码如下：#include <cuda.h>#include <stdio.h> gpuErrorCheckCuda(cudaFree(uniformDevice));我使用命令编译上面的代码：作为一个记录，我的图形卡是GTX 1060，

浏览 0提问于2017-05-02得票数 1

回答已采纳

1回答

在PyCUDA的戒律中，内存分配的顺序重要吗？

、、、、

我在CUDA统一内存[]上使用PyCUDA的接口[]。在某个时候，我添加了随机数生成器[]，并盯着看到木星笔记本中的死内核：我把问题缩小到了随机数发生器的创建。或者，准确地说，当我这样做的时候：from pycuda import autoinit, driver gpu_data，但是如果我将gpu_generator = ...行放在更高或更低的

浏览 10提问于2020-04-10得票数 0

回答已采纳

2回答

我需要在CUDA中反映多个GPU的输入缓冲区/纹理吗？

、、、

TL;DR:在使用CUDA进行多GPU编程时，是否需要镜像只读查找纹理和多个设备的输入缓冲区(无论是严格要求还是最佳性能)？我已经扩展了我的代码，允许使用多个GPU(我们的系统最大容量为8，但是对于测试，我使用的是一个较小的开发系统，仅使用2)。我们的系统使用NVLINK，我们启用了UVA。我的设置包括使设备0成为一种“主”或“根”设备，其中存储最终结果，并执行最后的串行操作(仅在一个GPU上可执行

浏览 1提问于2019-08-07得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云