腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1150)
视频
沙龙
0
回答
Pascal
Titan
X
/
GP102
上
的
CUDA
8
统一
内存
、
表示,
CUDA
8
改进了
Pascal
GPU
上
的
统一
内存
支持,以便“在支持
的
平台上,使用默认操作系统分配器(例如‘malloc’或‘new’)分配
的
内存
可以使用相同
的
指针从GPU代码和CPU代码访问”。
X
(
Pascal
) Off | 0000:01:00.0 Off | N/A | | 36% 61C
浏览 12
提问于2017-01-11
得票数 0
回答已采纳
1
回答
重置
CUDA
数组
的
值
、
、
cudaMemset(d_A, 0, K*K*sizeof(unsigned int) ) cudaMemcpyToArray(cu_A, 0, 0, d_A, K*K*sizeof(unsigned int)
浏览 4
提问于2017-10-25
得票数 1
回答已采纳
1
回答
如何使用cudaStream_t访问nvprof中看到
的
数字流in?
、
在nvprof中,我可以看到我使用
的
每个
cuda
执行流
的
流I (0、13、15等)。 给定一个流变量,我希望能够打印出流ID。目前,我找不到任何API来这样做,并且将cudaStream_t转换为int或uint不会产生合理
的
ID。sizeof()说cudaStream_t是
8
个字节。
浏览 5
提问于2017-05-30
得票数 4
回答已采纳
1
回答
CUDA
8
和
Pascal
体系结构下
的
GPU
内存
分配
、
Pascal
体系结构通过升级
统一
内存
行为为
CUDA
开发人员带来了一个惊人
的
特性,允许他们分配比系统
上
可用
的
GPU
内存
大得多
的
内存
。 我只是好奇这是如何在引擎盖下实现
的
。我已经用"cudaMallocManaging“(一个巨大
的
缓冲区)测试了它,nvidia-smi没有显示任何东西(除非缓冲区大小低于可用
的
GDDR)。
浏览 6
提问于2016-09-02
得票数 0
回答已采纳
1
回答
使用mpirun -np
X
和tensorflow:
X
受GPU数量
的
限制吗?
、
、
、
X
(
Pascal
)pciBusID 0000:01:00.02017-09-24 17:29:12.987133: I tensorflow/core/common_runtime/gpu/gpu_device.cc:955] Found device 0 with p
浏览 2
提问于2017-09-25
得票数 0
回答已采纳
1
回答
在计算能力5.0中,如何通过CPU和GPU同时访问托管
内存
?
、
由于在计算能力低于6.
x
的
设备
上
同时访问托管
内存
是不可能
的
,是否有一种方法可以在GPU内核运行时通过CPU和GPU以计算能力5.0来模拟访问托管
内存
或使CPU访问托管
内存
。
浏览 0
提问于2019-01-22
得票数 0
回答已采纳
2
回答
Keras和GPU使用
、
、
我使用
的
是带Theano后端
的
keras 1.1.0。导入keras后会显示以下消息:/home/library_python
X
(
Pascal
) On | 0000:02:00.0 Off | N/A | | 36% 63C P2 8
浏览 5
提问于2017-05-06
得票数 3
1
回答
在多个GPU
上
训练tensorflow会使计算机崩溃
我们使用以下硬件配置使用tensorflow运行多个GPU训练:
cuda
8
8
titan
X
pascal
训练代码基于tensorflow/models github存储库中发布
的
slim。但是,一旦我们用完了所有
8
个GPU,计算机就会崩溃。 这可能是什么原因呢?
浏览 1
提问于2016-12-15
得票数 1
1
回答
统一
内存
与固定主机
内存
的
行为与性能
、
、
、
、
我认为这个程序
的
主题,与问题无关;但我必须提到,我
的
教授在我
的
程序中看到我试图创建
CUDA
智能指针类后,建议我使用
统一
的
内存
。最好将这个类描述为“指向数组
的
唯一指针”,这满足了RAII
的
成语。在检查了
CUDA
6.0发布
的
统一
内存
(以及在
CUDA
8.0中引入
的
更新)之后,我对是否应该切换到
统一
内存</
浏览 0
提问于2017-04-15
得票数 4
回答已采纳
1
回答
Tensorflow:再培训入门v3显示0%
的
GPU使用率
、
我目前正在尝试Tensorflow
的
初始模式,虽然它确实使用GPU来生成瓶颈,但它似乎没有对其进行任何训练。 通过nvidia-smi监控GPU
的
使用情况,它保持在0%。log_device_placement在大约80%
的
操作中返回gpu:0,所以看起来很好。一开始它确实用通常
的
/job:localhost/replica:0/task:0/gpu:0 -> device: 0, name:
TITAN
X
(
Pascal</e
浏览 2
提问于2017-03-28
得票数 2
2
回答
-ta=tesla:managed:
cuda
8
但cuMemAllocManaged返回错误2:
内存
不足
、
这适用于
8
GB,但当我增加到10 GB时,就会出现
内存
不足
的
错误.我
的
理解是,使用
Pascal
(这些卡是)和
CUDA
8
的
统一
内存
,我可以分配一个大于GPU
内存
的
数组,硬件将按需分页。启用
统一
内存
”部分,我使用以下方法编译它: $ pgcc -acc -fast -ta=tesla:managed:
cuda
8
浏览 2
提问于2017-05-02
得票数 0
回答已采纳
1
回答
分析器(nvvp和nvprof)没有显示“页面故障”信息
、
、
、
我正在分析在NVIDIA
的
开发者论坛
上
展示在上
的
测试代码。代码:#include <math.h> __global__{ int index = blockIdx.
x
* blockDim.
x
+ threadId
浏览 3
提问于2021-11-29
得票数 0
回答已采纳
2
回答
在同一个GPU
上
运行多个tensorflow进程是否不安全?
、
、
、
我只有一个GPU (
Titan
X
Pascal
,12 GB VRAM),我想在同一个GPU
上
并行训练多个模型。我尝试将我
的
模型封装在一个单独
的
python程序中(称为model.py),并在model.py中包含代码以限制VRAM
的
使用(基于)。我能够在我
的
图形处理器
上
同时运行3个model.py实例(每个实例占用我虚拟
内存
的
33% )。令人费解
的
是,当我尝试4个模型时,我收到了
浏览 4
提问于2017-09-11
得票数 11
1
回答
基于码头
的
Nvidia渲染
、
、
、
、
我有一个ubuntu20.04服务器与nvidia驱动程序
的
启动和运行。服务器是无头
的
。
X
(
Pascal
) Off | 00000000:01:00.0 Off | N/A |sudo docker run -v /tmp
浏览 0
提问于2020-11-24
得票数 1
3
回答
为什么NVIDIA
Pascal
GPU在使用cudaMallocManaged时运行
CUDA
内核速度慢
、
、
、
、
我正在测试新
的
CUDA
8
和
Pascal
GPU,并期待我
的
代码加速,但由于某种原因,它最终会变慢。我在Ubuntu 16.04。NVCC标志,
Pascal
Titan
X
的
标志是:对于旧
的
麦克斯韦泰坦
X
是: -gencode arch对于
Pascal
来说,
内存
传输<e
浏览 6
提问于2016-09-30
得票数 11
回答已采纳
1
回答
带有映射
内存
、
统一
虚拟寻址和
统一
内存
的
GPU
内存
过度订阅
、
、
、
、
我正在考虑在GPU
上
处理数据
的
可能性,这对GPU
内存
来说太大了,我有几个问题。如果我正确地理解了这一点,使用映射
内存
,数据驻留在主
内存
中,并且只有在访问时才被传输到GPU,所以分配给GPU
内存
不应该是一个问题。 UVA类似于映射
内存
,但是数据可以存储在CPU和GPU
内存
中。但是GPU是否有可能在满有自己
的
数据
的
同时访问主
内存
(就像映射
内存
一样)?在这种情况下会发生
内存</e
浏览 3
提问于2017-09-20
得票数 2
回答已采纳
1
回答
cudaMemPrefetchAsync bug on GTX1080 (
Pascal
)?
、
在我
的
机器
上
,下面代码中对cudeMemPrefetchAsync
的
调用返回10 (
cuda
错误,设备无效),而不是0。安装程序是一台运行Windows10
的
Alienware17笔记本电脑,配备NVidia GTX1080GPU和板载英特尔高清显卡530。使用来自NVidia
的
驱动器376.19 (移动驱动器))。另一个用户尝试在
Pascal
架构(
Titan
X
)
上
运行相同
的
代码,结果正确返回0。
浏览 0
提问于2016-12-12
得票数 2
1
回答
CURAND_STATUS_LAUNCH_FAILURE +
CUDA
7.5
、
、
、
我
的
代码如下:#include <
cuda
.h>#include <stdio.h> gpuErrorCheckCuda(cudaFree(uniformDevice));我使用命令编译上面的代码:作为一个记录,我
的
图形卡是GTX 1060,
浏览 0
提问于2017-05-02
得票数 1
回答已采纳
1
回答
在PyCUDA
的
戒律中,
内存
分配
的
顺序重要吗?
、
、
、
、
我在
CUDA
统一
内存
[]
上
使用PyCUDA
的
接口[]。在某个时候,我添加了随机数生成器[],并盯着看到木星笔记本中
的
死内核: 我把问题缩小到了随机数发生器
的
创建。或者,准确地说,当我这样做
的
时候:from pycuda import autoinit, driver gpu_data,但是如果我将gpu_generator = ...行放在更高或更低
的
浏览 10
提问于2020-04-10
得票数 0
回答已采纳
2
回答
我需要在
CUDA
中反映多个GPU
的
输入缓冲区/纹理吗?
、
、
、
TL;DR:在使用
CUDA
进行多GPU编程时,是否需要镜像只读查找纹理和多个设备
的
输入缓冲区(无论是严格要求还是最佳性能)?我已经扩展了我
的
代码,允许使用多个GPU(我们
的
系统最大容量为
8
,但是对于测试,我使用
的
是一个较小
的
开发系统,仅使用2)。我们
的
系统使用NVLINK,我们启用了UVA。我
的
设置包括使设备0成为一种“主”或“根”设备,其中存储最终结果,并执行最后
的
串行操作(仅在一个GPU
上
可执行
浏览 1
提问于2019-08-07
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
NVIDIA Tensor Core深度学习核心解析:全是干货
NVIDIA深度学习Tensor Core全面解析
2 万块的英伟达 TITAN V 来了,性能有点变态
英伟达深度学习Tensor Core全面解析
NVIDIA全系列GPU技术路线演进分析
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券