腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
cuda
代码
生成
sass
和
ptx
的
正确
方法
是什么
cuda
、
gpu
、
nvidia
、
gpgpu
、
nvcc
我正在写一个简单
的
cuda
内核,我在其中测量DRAM访问
的
时间,我想从
cuda
代码
中获得
ptx
和
sass
代码
。
sass
和
ptx
文件。但我对
生成
的
文件感到困惑,并有一些问题,我将在这里描述。 似乎有多种
方法
可以
生成
ptx
和
sass
代码
并读取它
浏览 237
提问于2020-12-29
得票数 0
回答已采纳
1
回答
具有大结构变量
的
库达核函数给出了错误
的
结果。
c++
、
struct
、
cuda
我有一个
cuda
内核函数来交换结构数组中
的
元素,但是当struct元素足够大时,例如占用超过120字节,交换是错误
的
。下面是一个简单
的
例子:#include <
cuda
_runtime.h> const int f_num = 30,而当结构元素较大时,其结果为5 6 7 8 9 5 7 7 8 8 8 9 9 9 10 11 .我刚到库达,有人能告诉我问题
的
原因以及如何解决
浏览 5
提问于2017-07-21
得票数 2
回答已采纳
2
回答
在Nvidia
的
NVCC编译器中使用多个"arch“标志
的
目的
是什么
?
cuda
、
nvcc
、
ptx
我最近开始思考NVCC是如何为不同
的
计算架构编译
CUDA
设备
代码
的
。据我所知,当使用NVCC
的
-gencode选项时,"arch“是程序员应用程序所需
的
最小计算架构,也是NVCC
的
JIT编译器将编译
PTX
代码
所针对
的
最小设备计算架构。我还了解到-gencode
的
“
代码
”参数是计算体系结构,NVCC完全为其编译应用程序,因此不需要进行即时编译。在检查了各种
CUDA<
浏览 0
提问于2013-07-12
得票数 41
回答已采纳
1
回答
从头开始学习
PTX
cuda
、
nvidia
、
ptx
我想开始学习
PTX
,我应该
从
哪里开始呢?有没有好
的
书/资源可以做到这一点? 我已经知道x86/x64 ASM (或多或少),如果这可能会有帮助
浏览 3
提问于2013-07-09
得票数 4
回答已采纳
1
回答
如何检查库编译
的
数据自动化系统计算兼容性?
c++
、
cuda
假设我得到了一个随机
的
libtestcuda.so文件,那么我是否可以检查库编译
的
数据自动化系统计算兼容性呢?ll libtestcuda.so-gencode arch=compute_30,code=sm_30; 它在我编写
的
一个小型
cuda
程序上编译
和
运行很好,但是当我在GPU上运行deviceQuery时,它实际上显示了
CUDA
计算兼容性3.5,所以我很想知道这段
代码
是在3.0还是3.5架构中执行
浏览 1
提问于2016-10-11
得票数 1
回答已采纳
1
回答
不使用NVCC时是否使用NVIDIA
的
JIT编译缓存?
cuda
、
jit
、
nvcc
、
cuda-driver
、
cuda-jit-cache
我们都应该知道(但没有足够多的人这么做),当您使用NVCC构建一个
CUDA
程序,并在一个设备上运行它,该设备
的
特定设备
的
完整编译(
SASS
)
代码
不包含在二进制文件中--中间
PTX
代码
是JITed,其结果实际上用于运行内核在此JITing期间,将启动一个,以便下次运行相同
的
可执行文件时,可以跳过编译,只需加载结果。现在,假设我正在编写C++文件,它在运行时动态编译内核,而不是使用NVCC,例如: 我使用NVRTC
的
nvrtcComp
浏览 11
提问于2022-05-16
得票数 1
回答已采纳
1
回答
CUDA
:如何使用-arch、-code
和
SM vs COMPUTE
cuda
、
nvcc
、
ptx
、
fat-binaries
在使用nvcc构建时,我仍然不确定如何
正确
指定
代码
生成
的
体系结构。我知道在我
的
二进制文件中嵌入了机器码
和
PTX
代码
,这可以通过控制器开关-code
和
-arch (或者使用-gencode将两者结合使用)来控制。但是,这段
PTX
代码
不会自动编译成机器码,而是一个“预处理步骤”。 现在,-code应该指定
PTX
代码
是针对哪些架构进行汇编
和
优化
浏览 7
提问于2016-02-26
得票数 42
回答已采纳
1
回答
用
ptx
指令'ldmatrix‘
和
'mma’编译
cuda
时出错
cmake
、
cuda
、
ptx
当我打算使用ldmatrix
和
mma指令时,我从下面的
代码
中得到了错误。
PTX
说'ldmatrix‘是在
PTX
6.5中引入
的
。所以我怀疑
PTX
版本可能是其中一个原因。我想知道怎样才能找到我们使用
的
PTX
版本?造成这些错误
的
其他可能原因
是什么
?__device__ void #if (defined(_
浏览 17
提问于2022-01-01
得票数 0
回答已采纳
1
回答
WIN+
CUDA
6.5.19+compute_52 --ptxas-options=-v未显示输出
visual-studio-2012
、
cuda
我正在试图编译一些来源
的
最后泰坦X设备上
的
一台Win机器。不幸
的
是,要在Win 7上编译它们,唯一
的
资源是
CUDA
6.5.19。我还试图通过典型
的
标志-ptxas-options=-v获取有关
PTX
输出
的
其他信息。另一方面,如果我对以前
的
体系结构(即5.0)使用相同
的
功能, "C:\Program Files\NVIDIA GPU Computing Toolkit\
CUDA
\v6.5\
浏览 3
提问于2015-04-16
得票数 1
1
回答
code调试,或者如何在不禁用优化
的
情况下获得code中
的
源
代码
行?
debugging
、
cuda
、
nvidia
、
cuda-gdb
我有一个相当大和复杂
的
CUDA
代码
,它对大量
的
块/线程非常可靠地挂起。我正在努力弄清楚
代码
挂在哪里。当我在
cuda
-gdb中运行
代码
时,我可以看到哪些线程/块正在挂起,但除了“虚拟PC”之外,我看不清在哪里。如果我用"-G“编译
代码
以获得调试信息,那么它
的
运行速度会慢得多,并且不管运行多长时间,它都不会挂起。 有没有办法将“虚拟PC”映射到源
代码
中
的
一行
代码</
浏览 4
提问于2012-05-14
得票数 5
1
回答
CMake +
CUDA
“无效设备功能”即使有
正确
的
SM版本
c++
、
cmake
、
cuda
我一直在内核启动时得到一个“无效
的
设备功能”。Google为此找到了大量实例,但是所有这些实例似乎都与嵌入在二进制文件中
的
SASS
/
PTX
代码
不匹配有关。我理解它
的
工作原理是:
PTX
代码
是向前兼容
的
,即任何较新
的
GPU都能够运行
代码
(然而,驱动程序需要JIT) 。_60,c
浏览 4
提问于2019-09-12
得票数 1
回答已采纳
1
回答
与
CUDA
PTX
代码
和
寄存器内存混淆
cuda
、
ptx
)当我试图管理我
的
内核资源时,我决定研究
PTX
,但是有一些事情我不明白。Compiling entry function '_Z3fooPfS_j' for 'sm_10'由此产生
的
ptx
+0], %f3; exit; } // _Z3fooPfS_j 现在有些事情我
浏览 4
提问于2013-06-07
得票数 8
回答已采纳
1
回答
在Nvidia下读取共享/本地内存存储/加载库冲突
的
OpenCL可执行文件硬件计数器
cuda
、
opencl
、
nvidia
、
performancecounter
、
bank-conflict
可以使用nvprof访问/读取
CUDA
exec
的
银行冲突计数器: nvprof --events shared_st_bank_conflict,shared_ld_bank_conflict my_
cuda
_exe但是,它不适用于使用OpenCL
的
代码
,而不是
CUDA
代码
。有任何
方法
从
ptx
?Alternatively环境中提取nvprof之外
的
计数器吗?也许可以直接
从</em
浏览 5
提问于2020-10-18
得票数 1
1
回答
库达常量内存使用跨多个源文件显示不同
的
行为在库达-11.2
和
库达-11.4
cuda
-11.4
和
Cud-11.2上,运行nvcc kernel.cu driver.cu都会编译。在11.4上运行
cuda
-gdb后,我得到以下信息: warning:
Cuda
API error detected: cudaLaunchKer
浏览 13
提问于2021-12-28
得票数 0
2
回答
如何让CMake也为我
的
内核创建
PTX
文件
build
、
cmake
、
cuda
、
ptx
我正在使用
CUDA
代码
构建一个项目,使用具有内部
CUDA
支持( >= 3.8或更高版本,如果需要)
的
最新CMake。 我如何告诉CMake为我
的
各种内核
生成
PTX
文件? 我试过
的
东西没有(?)工作:
从
CMake 3.9开始,我们可以使用
CUDA
_
PTX
_COMPILATION property将对象库定义为具有PTXes而不是种类
的
对象 add_library(myptx
浏览 50
提问于2019-05-05
得票数 1
1
回答
包含多个.h
和
.cu文件
的
静态库无法解析函数
c++
、
cuda
、
static-libraries
、
header-files
、
unresolved-external
在编译带有Multie.h
和
.cu文件
的
静态库时,我会得到一个未解析
的
extern函数。下面是一个复制错误
的
简短示例。在我
的
整个项目中,先编译带有额外函数
的
文件,但仍然会抛出无法解决外部函数错误
的
文件。下面是这个示例
的
输出:Building file: ..: #include <
cuda</e
浏览 7
提问于2012-11-29
得票数 1
回答已采纳
1
回答
PTX
内核名称损坏
cuda
当
从
ptx
文件编译内核时,我无法链接我
的
Cuda
程序。main.o kernel.o --gpu-architecture=sm_70 -o dlink.o如果我像下面这样编译(通过
生成
ptx
),我会得到错误:nvcc -dc main.cu kernel.
ptx
--gpu-archi
浏览 3
提问于2020-10-02
得票数 1
回答已采纳
1
回答
取决于nvcc标志
的
无效设备符号错误
cuda
、
nvcc
" << }用在运行时不会出现任何错误。然而,与 nvcc -gencode arch=compute_52,code=sm_52 -std=c++11
cuda
_invalid_symbol_error.cu -
浏览 1
提问于2017-03-15
得票数 1
回答已采纳
1
回答
cuModuleLoadDataEx选项
cuda
我正在尝试对
PTX
代码
进行JIT编译。
代码
编译
和
运行,但与
生成
代码
的
cuda
C相比,速度非常慢。尝试尝试运行
从
cuda
C
生成
的
PTX
代码
较慢
的
原因(两者都针对compute_20/sm_20),我想在我
的
调用cuModuleLoadDataEx中设置选项,以确保它针对compute_20/
浏览 1
提问于2012-06-08
得票数 1
1
回答
CUDA
JIT编译器执行设备链接时间优化吗?
cuda
、
cuda-driver
通常,您只需创建一个包含
PTX
的
加脂二进制文件,用于您通常要针对
的
特定体系结构
的
最低可能
的
arch
和
SASS
。对于任何未来
的
GPU体系结构,JIT编译器都会将
PTX
组装成针对特定GPU arch进行优化
的
SASS
。 然而,现在,对于DLTO,我不太清楚如何确保这些未来体系结构
的
前向兼容性
和
保持性能。
的
胖二进制文件,为sm_52
和
浏览 8
提问于2021-05-10
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Sass->什么时候使用Mixins和Placeholders
CSS预编译器:Sass,更快的前端开发
1.使用CSS预处理器Sass重写你的样式
修真院技术总监深度解析Sass
你不知道的Sass
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券