腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1492)
视频
沙龙
1
回答
CUDA
的
取
整
模式
可
以为
内核
全局
设置
吗
?
c++
、
floating-point
、
cuda
本文讨论了
CUDA
对浮点舍入
模式
的
处理,here和各种内部函数(如__fadd_rn )可用于执行四舍五入
的
浮点选项(在本例中为四舍五入)。 但是,如果我想切换代码块
的
舍入
模式
,这就变得很笨拙了。在主机端,我可以使用fesetenv and friends为线程
设置
浮点
取
整
模式
。 有没有办法为流或
内核
设置
CUDA
的
浮点
取
浏览 55
提问于2021-05-09
得票数 1
1
回答
CUDA
的
细粒度内存检查器?
debugging
、
cuda
我怀疑我在运行
的
大型
CUDA
内核
中存在细粒度内存错误。设备端printf显示了一些变量
的
可变值,这些值应该是确定性
的
。我使用
的
CUDA
开发工具
的
“稳定”版本去掉了设备仿真
模式
,它
的
cuda
-gdb版本不能使用模板化函数。
Cuda
-memcheck运行,但没有捕获任何内容。在cpu上,我会使用valgrind或电栅栏来捕获这样
的
内存错误。如果只有printf可用,那
浏览 0
提问于2011-05-15
得票数 1
回答已采纳
1
回答
封装
CUDA
内核
的
最佳方法是什么?
c++
、
cuda
我正在努力使一个
CUDA
项目尽可能接近OO设计。目前,我发现
的
解决方案是使用Struct封装数据,对于每个需要进行GPU处理
的
方法,需要实现3个函数:我给你举个例子。假设我需要实现一个方法来初始化结构中
的
缓冲区。看起来应该是这样
的
:{ short2 bu
浏览 2
提问于2012-04-15
得票数 4
回答已采纳
1
回答
CUDA
流、纹理绑定和异步memcpy
asynchronous
、
concurrency
、
cuda
、
textures
我在
CUDA
上写了一些信号处理,最近在优化它方面取得了巨大
的
进步。通过使用一维纹理和调整我
的
访问
模式
,我设法获得了10×性能提升。(我以前尝试过事务对齐预
取
从
全局
到共享内存,但后来发生
的
非统一访问
模式
破坏了翘曲→共享缓存库关联(我认为))。 所以现在我面临
的
问题是,
CUDA
的
纹理和绑定是如何与异步memcpy交互
的
。,既然只有一个纹理引用,那么当我将一个缓冲区绑定到一个纹理上,而其
浏览 2
提问于2012-09-13
得票数 3
回答已采纳
1
回答
在
CUDA
中写入
全局
内存
cuda
、
opencl
、
gpu
、
gpgpu
、
nvidia
我想问一下在
CUDA
中写入
全局
内存
的
效果。众所周知,
全局
内存读取通常对性能(合并、高速缓存、存储体冲突)有很大影响,因为它们可能需要相当多
的
周期来等待传入
的
内存,这可能会在某个时刻阻塞执行。然而,
CUDA
中
的
写入内存又如何呢?它是否受到任何类型
的
内存写入
模式
的
影响?总成本直接就是
内核
中所有写操作
的
总和
吗
? 任何相关
的
参考资料和评
浏览 0
提问于2012-02-02
得票数 3
回答已采纳
1
回答
初始化
全局
内存变量后
的
全局
__syncthreads()
cuda
我有一个
CUDA
内核
,它从将
全局
计数器
设置
为零开始,执行一些计算,递增共享计数器,然后将不同块
的
共享计数器添加到
全局
计数器。现在,我要确保初始化发生在
全局
计数器
的
任何增量之前。下面是我
的
内核
的
一个简化示例:{ __编程指南
的</e
浏览 0
提问于2016-05-10
得票数 0
2
回答
我不能在
CUDA
内核
中
设置
断点
cuda
、
nsight
我是NSIGHT和
CUDA
的
新手。我试图在我
的
CUDA
内核
代码中
设置
一个断点,但我不能--断点是在
内核
的
末尾
设置
的
,而不是在我想调试
的
特定行上
设置
的
。我正在使用VS2010 (MFC项目)与NSIGHT 2.2和
CUDA
4.2。 我在一个不是"StratUp项目“
的
项目
浏览 3
提问于2013-02-27
得票数 1
回答已采纳
1
回答
在
CUDA
Fortran中确定共享内存使用情况
cuda
、
fortran
我一直在写一些基本
的
CUDA
Fortran代码。我希望能够确定我
的
程序使用
的
每个线程块
的
共享内存量(用于占用率计算)。我一直在用-Mcuda=ptxinfo编译,希望能找到这些信息。,320字节cmem 这是输出中唯一提到smem
的
地方。在
全局
子例程main_kernel中有一个具有shared属性
的
数组。似乎只统计了main_kernel中
的
共享内存:我
的
代码中
的
设备子例程使用具有shared属
浏览 1
提问于2014-11-27
得票数 0
1
回答
Cuda
分析器说我
的
两个
内核
都很昂贵,但是它们
的
执行时间似乎很短。
performance
、
cuda
、
kernel
、
profiler
我使用两个
内核
,让我们称它们为A,一个B。 第一个
内核
有44%
的
开销,而第二个
内核
有20%
的
开销。但是,如果我决定通过以下逻辑找出实际
的
执行时间:gettimeofday(&tim, NULL); double before = tim.tv_sec+(tim.tv_usec我是
CUDA
的
新手,我不太明白到底是怎么回事。我应该尝试让
内核</em
浏览 2
提问于2013-05-15
得票数 0
回答已采纳
2
回答
将fpu切换为单精度
performance
、
assembly
、
optimization
、
x86
、
x87
我在fpu之前几年读到过,当切换到单精度
模式
时,除法和sqr
的
速度是正常
模式
的
两倍。它仍然是这样
的
吗
?这样
的
切换可以加快一些循环
的
速度,使内部产生大量
的
浮点代码?与第二个问题相关,例如,当进行系统(winapi)调用时,我可以在代码中自由地玩弄FPU精度
吗
,与fpu
取
整
模式
和系统端一样,api是否也会破坏我对它
的
设置</e
浏览 2
提问于2012-10-03
得票数 3
3
回答
Nvidia
CUDA
中
的
预
取
cuda
、
nvidia
、
prefetch
我正在研究nVidia
CUDA
中
的
数据预
取
。我阅读了一些关于设备本身预
取
的
文档,即从共享内存到缓存
的
预
取
。 但我对CPU和GPU之间
的
数据预
取
很感兴趣。有没有人能给我一些关于这件事
的
文件或东西?
浏览 1
提问于2011-10-17
得票数 1
1
回答
具有
全局
内存
的
Cuda
内核
与具有常量内存
的
Cuda
内核
memory
、
cuda
、
constants
、
global
我有两个核来做矩阵乘法,一个使用
全局
内存,另一个使用常量内存。我想使用
Cuda
分析器来测试两个
内核
的
速度。 我在1.3设备和2.0设备上都进行了测试。我原
以为
拥有恒定内存
的
内核
在1.3设备上会更快,而
全局
内存
内核
在2.0设备上会更快,因为在这些设备上使用了
全局
内存缓存,但是我发现在这两种设备中
全局
内存
内核
都更快。这是由于内存聚集在
全局
内存上
吗
?如
浏览 5
提问于2014-03-04
得票数 0
回答已采纳
1
回答
发布
模式
与调试
模式
之间
的
CUDA
运行时差异
visual-studio-2013
、
cuda
、
nvcc
我在运行
CUDA
7.0.28
内核
函数中有断点
的
方法
吗
?情况似乎并非如此。
浏览 5
提问于2015-07-27
得票数 0
回答已采纳
1
回答
CUDA
内核
代码
的
设备内存:它是否
可
显式管理?
memory-leaks
、
cuda
上下文: GeForce GTX480上
的
CUDA
4.0,Linux64位,NVIDIA UNIX x86_64
内核
模块270.41.19。 我尝试在我
的
程序中查找(设备)内存泄漏。我注意到在
内核
执行后有一个很大
的
损失(在这个例子中是31M)。
内核
代码本身不分配任何设备内存。所以我猜它是保留在设备内存中
的
内核
代码。甚至我都会认为
内核
并没有那么大。(有没有办法确定
内核
的
大小?)<e
浏览 3
提问于2011-08-22
得票数 1
2
回答
链接错误:函数___cudaRegisterLinkedBinary中引用
的
未解析外部符号____cudaRegisterAll
visual-studio-2008
、
cuda
我正在使用
CUDA
5.0编写Visual 2008。我使用
CUDA
运行时API作为构建规则。 我正在尝试编译一个test.cu文件,其中包含一个主函数和一个
全局
内核
。主函数和
内核
都包含外部库函数调用,我使用相同
的
CUDA
环境编译了这些函数,启用了
可
重定位
的
设备代码标志,并且NVCC编译类型为-c。在CUDAV5.0中,但是在v4.2中没有这样
的
东西。,对
吗
?有人能帮我解决这个错误
吗</em
浏览 6
提问于2012-12-14
得票数 3
1
回答
CUDA
统一内存页,可在CPU中访问,但未从GPU中删除
cuda
、
tesla
、
unified-memory
我试着理解
CUDA
统一记忆
的
功能。我读过关于
CUDA
的
统一记忆,供初学者使用。我有一个使用x分配
的
整数数组( cudaMallocManaged() )。首先,我在GPU中预
取
数组并对其进行一些处理,然后将其预取到CPU并进行一些处理。在此期间,我在内存传输之前和之后打印GPU上可用
的
空闲内存。基于此,我有两个问题: 在第一次预
取
期间,就在cudaMallocManaged()之后,空闲内存比我分配
的
内存减少得多。预取到CPU之前
浏览 23
提问于2021-12-05
得票数 -1
回答已采纳
2
回答
如何在MNIST (用tf.layers构建)
的
CNN估计器中
设置
会话配置
tensorflow
当我试图在GPU上运行它时,它会给
cuda
_error_out_of_memory,分配整个GPU可用内存。我通过
设置
CUDA
_VISIBLE_DEVICES="“环境变量在CPU上运行它,它运行得很好,但花费了很多时间。我寻找
cuda
_error_out_of_memory
的
解决方案,发现它可以通过在tf会话中
设置
config.gpu_options.allow_growth = True或config.gpu_options.per_process_gpu_memory_f
浏览 2
提问于2017-05-01
得票数 2
2
回答
在我运行
的
cuda
程序中,cpu和gpu可以异步计算,但不能协同计算,为什么?
c++
、
cuda
在我运行时
的
cuda
程序中,cpu和gpu可以异步计算,但不能协同计算,为什么?我测量了程序
的
时间,总时间是cpu计算时间和gpu计算时间
的
总和.Through视觉配置文件,我发现gpu直到cpu完成才开始计算。我
的
目的是让cpu和gpu同时计算。平台: window 10vs2013#include "
cuda
_runtime.h" #include &qu
浏览 0
提问于2016-12-05
得票数 0
2
回答
与Geforce相比,Tesla
的
内核
开销要少多少?
c
、
cuda
、
kernel
、
nvidia
采用TCC
模式
的
特斯拉(费米或开普勒)与采用WDDM
的
Geforce (同一代)相比?我写
的
程序有一些非常严重
的
内核
开销问题,因为它必须重复运行
内核
,开销是如此巨大,我不得不将许多
内核
合并在一起,并交换内存空间以换取更少
的
内核
启动,然而,由于GPU内存存储
的
巨大容量,它只能工作到目前为止我听说TCC
模式
可以有较少
的
开销,但它能将开销性能提高到CPU
的</e
浏览 1
提问于2013-03-15
得票数 2
1
回答
CUDA
:是否可以将一个核心作为“主”来执行内存malloc,并运行其他
的
“逻辑代码”?
c++
、
tensorflow
、
cuda
我正在将一个C++程序移植到
CUDA
,所有的计算都是关于矩阵/向量
的
。第一个移植函数是矩阵
的
FFT。在将矩阵
的
FFT移植到
CUDA
后,发现CPU和GPU之间
的
数据传输几乎一直在进行。我遇到
的
问题是:在CPU功能中,有一些“代码片段”(就像FFT)可以移植到
CUDA
,但是这些代码是if/else代码,中间内存是malloc。 我想减少数据传输CPU <->GPU。我
的
观点是将整个CPU功能移植到
C
浏览 0
提问于2021-02-08
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从头开始进行CUDA编程:原子指令和互斥锁
Linux搭建ISCSI存储服务器
如何在Julia编程中实现GPU加速
从头开始进行CUDA编程:线程间协作的常见技术
详解英伟达芯片在自动驾驶的软件移植设计开发
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券