从cuda代码生成sass和ptx的正确方法是什么_在应用程序和源代码控制中存储SASS生成的CSS的最佳方法是什么？_V8，从C++生成和抛出错误对象的正确方法是什么 - 腾讯云开发者社区

linux、cuda、nvcc

根据NVIDIA编程指南：运行时由应用程序加载的任何PTX代码将由设备驱动程序进一步编译为二进制代码。这就是所谓的即时编译。即时编译增加了应用程序的加载时间，但允许应用程序从最新的编译器改进中获益. ..。将CUDA_FORCE_PTX_JIT设置为1，将迫使设备驱动程序忽略嵌入在应用程序中的任何二进制代码(请参阅3.1.4节)，并立即编译嵌入式PTX代码；如果内核没有嵌入PTX代码，它将无法加载。我使用以下标志编译了我的简单vectorAdd： nvcc -o vectorAdd -gencode arch=compute_20,code=sm_20 vectorAdd

浏览 4提问于2013-01-27得票数 0

回答已采纳

1回答

从cuda代码生成sass和ptx的正确方法是什么

cuda、gpu、nvidia、gpgpu、nvcc

我正在写一个简单的cuda内核，我在其中测量DRAM访问的时间，我想从cuda代码中获得ptx和sass代码。设备源码如下： __global__ void testPtx(int *devBuff,float *devDummy,unsigned int *timeBuff){ unsigned int temp=0; unsigned int start,end; volatile unsigned int *tempPtr; tempPtr = (volatile unsigned int *)&devBuff[0]; start =

浏览 237提问于2020-12-29得票数 0

回答已采纳

1回答

在Nvidia下读取共享/本地内存存储/加载库冲突的OpenCL可执行文件硬件计数器

cuda、opencl、nvidia、performancecounter、bank-conflict

可以使用nvprof访问/读取CUDA exec的银行冲突计数器： nvprof --events shared_st_bank_conflict,shared_ld_bank_conflict my_cuda_exe 但是，它不适用于使用OpenCL的代码，而不是CUDA代码。有任何方法从ptx?Alternatively环境中提取nvprof之外的计数器吗?也许可以直接从OpenCL环境中提取PTX程序集，是否有方法将nvidia OpenCL编译器生成的PTX程序集使用带有CL_PROGRAM_BINARIES的clGetProgramInfo转换为CUDA内核并使用cuModuleL

浏览 5提问于2020-10-18得票数 1

1回答

CUDA将多个.cu文件编译成一个文件

cuda、ptx、managed-cuda

我正在将一些计算从C#移植到CUDA。在C#中有许多我想要移植的类，对于每个c#类，我都在我的CUDA项目中创建了.cu和.cuh文件。所有相关的类，以及它们在计算中使用的所有类。我需要保存我的C#代码的结构，因为在其他情况下很容易出错。备注:如果我把所有的代码都放在一个文件里--一切都像预期的那样工作，但读取或修复一些问题会变得非常痛苦。我想编译CUDA项目，并通过ManagedCuda库在我的C#中使用它。我可以使用一个.cu文件将测试CUDA项目编译成.ptx文件，通过ManagedCuda将其加载到C#中，并从中调用函数。但是当我想用多个cu文件编译我的实际项目时，结果是项目中的

浏览 63提问于2018-03-22得票数 0

1回答

GPGPUsim PTX提取

cuda、gpgpu

正如标题所说，我正在学习如何使用GPGPUsim。当我阅读手册中的"PTX提取“部分时，我发现”在CUDA 4.0及以后的版本中，用于提取ptx和sass的胖古巴蛋白文件已不再可用。“，这让我感到困惑。如何理解这一点，在CUDA 4.0及更高版本中发生了什么。无论如何，谢谢你:)

浏览 13提问于2022-03-08得票数 1

回答已采纳

1回答

用ptx指令'ldmatrix‘和'mma’编译cuda时出错

cmake、cuda、ptx

当我打算使用ldmatrix和mma指令时，我从下面的代码中得到了错误。PTX说'ldmatrix‘是在PTX 6.5中引入的。所以我怀疑PTX版本可能是其中一个原因。我想知道怎样才能找到我们使用的PTX版本？造成这些错误的其他可能原因是什么？ __device__ void runldmatrix(typet & D, unsigned addr){ #if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 750)) int x, y, z, w;

浏览 17提问于2022-01-01得票数 0

回答已采纳

1回答

如何从编译后的CUDA中删除所有PTX以防止知识产权泄漏

cuda

CUDA类似于程序集，因此显示了源代码。我读过“数据自动化系统编程指南”第3.1节和。我对-arch和-code编译器选项有一个基本的理解。如果我理解正确，那么指定-arch compute_XX就可以生成PTX。而-code sm_XX则同时生产、PTX和cubin。我只想要，古巴，这样就没有PTX是在结果图像。我怎样才能做到这一点？最好是通过Visual设置，尽管我只在Visual项目设置中找到-gencode选项。

浏览 3提问于2017-01-26得票数 5

回答已采纳

1回答

CUDA内联PTX ld.shared遇到cudaErrorIllegalAddress错误

cuda、inline、shared-memory、ptx

我使用内联PTX ld.shared从共享内存加载数据： __shared__ float As[BLOCK_SIZE][BLOCK_SIZE]; //declare a buffer in shared memory float Csub = 0; As[TY][TX] = A[a + wA * TY + TX]; //load data from global memory to shared memory __syncthreads(); float t; asm("ld.shared.f32 %0, [%1];" :"=f"(

浏览 5提问于2021-11-12得票数 0

1回答

不使用NVCC时是否使用NVIDIA的JIT编译缓存？

cuda、jit、nvcc、cuda-driver、cuda-jit-cache

我们都应该知道(但没有足够多的人这么做)，当您使用NVCC构建一个CUDA程序，并在一个设备上运行它，该设备的特定设备的完整编译(SASS)代码不包含在二进制文件中--中间PTX代码是JITed，其结果实际上用于运行内核。在此JITing期间，将启动一个，以便下次运行相同的可执行文件时，可以跳过编译，只需加载结果。现在，假设我正在编写C++文件，它在运行时动态编译内核，而不是使用NVCC，例如：我使用NVRTC的nvrtcCompileProgram()来编译CUDA C++代码，目标是一个具体的体系结构(例如sm_70)。我使用CUDA驱动程序的cuModuleLoad()加载

浏览 11提问于2022-05-16得票数 1

回答已采纳

2回答

如何将编译器标志从clang传递到nvcc

c++、cuda、cross-compiling、clang++、ptx

我正在尝试compile CUDA with clang，但是我尝试编译的代码依赖于一个特定的nvcc标志(-default-stream per-thread)。我如何告诉clang将标志传递给nvcc？例如，我可以用nvcc编译，一切都很好： nvcc -default-stream per-thread *.cu -o app 但是当我从clang编译时，程序不能正常运行，因为我不能传递default-steam标志： clang++ --cuda-gpu-arch=sm_35 -L/usr/local/cuda/lib64 *.cu -o app -lcudart_static -

浏览 76提问于2019-10-12得票数 1

回答已采纳

4回答

用C#编写CUDA？

c#、cuda

我一直在寻找一些关于用C#编写CUDA ( nvidia gpu语言)的信息。我看过一些库，但它们似乎会增加一些开销(因为p/invokes等)。我应该如何在我的C#应用程序中使用CUDA？用C++编写代码并编译成动态链接库是不是更好？使用包装器的开销是否会扼杀我从使用CUDA中获得的任何优势？有没有在C#中使用CUDA的好例子？

浏览 89提问于2011-06-25得票数 59

回答已采纳

2回答

开发PTX而不是CUDA进行优化。这有意义吗？

optimization、cuda、parallel-processing、ptx

我正在开发cuda代码。但新的设备语言是PTX或SPIR后端宣布的。我可以看到他们正在开发的一些应用程序。至少我认为我们可以说ptx语言足以在产品级上开发一些东西。正如我们所知，PTX不是真正的设备代码。它只是NVidia的中间语言。但我的问题是，如果我开发PTX而不是CUDA会怎么样？如果我使用ptx，我可以开发自然优化的代码吗？这有意义吗？另一方面，PTX语言的动机是什么？提前感谢

浏览 30提问于2014-03-04得票数 1

1回答

我怎么读PTX？

cuda

我的工作能力3.5，CUDA 5和VS 2010 (显然Windows)。我有兴趣阅读编译后的代码，以更好地理解C代码更改的含义。在VS中我需要什么样的配置来编译代码以提高可读性(将编译设置为PTX足够了吗？) 我需要什么工具来反向工程生成的PTX才能读取它？

浏览 3提问于2013-06-01得票数 3

回答已采纳

1回答

为什么compute_20代码会在compute_35设备上失败？

cuda、cmake

对于使用土卫六GPU (compute_35,sm_35)的计算机，我在CMakeLists.txt中使用这一行编译了一些代码 set(CUDA_NVCC_FLAGS ${CUDA_NVCC_FLAGS};-gencode arch=compute_35,code=sm_35) 代码编译并运行良好。我想检查一下这段代码会给使用GTS 450 (compute_20,sm_21)的朋友带来什么编译问题。所以，我把上面的一行改为： set(CUDA_NVCC_FLAGS ${CUDA_NVCC_FLAGS};-gencode arch=compute_20,code=sm_21) 代码在我的计算

浏览 2提问于2014-03-03得票数 1

回答已采纳

1回答

理解cuobjdump输出

linux、cuda、gpu、nvcc、ptx

我已经了，但我还有一些问题要问。我有一个cuda编译的可执行文件，其cuobjdump输出是 Fatbin elf code: ================ arch = sm_20 code version = [1,7] producer = cuda host = linux compile_size = 64bit Fatbin ptx code: ================ arch = sm_20 code version = [5,0] producer = cuda host = linux compile_size = 64bit compressed 我有两个

浏览 2提问于2019-09-09得票数 2

回答已采纳

1回答

无法找到编译CUDA的.cubin或.ptx文件

visual-studio、cuda

我正在使用Visual 2013从事CUDA (7.0)项目。这个项目是64位。我正在使用驱动程序API，需要从ptx或cubin file.But加载模块，我找不到文件。在VS中，我使用Properties->CUDA C/C++ ->Common->NVCC编译类型，将其改为-cubin或ptx .the编译器完成，但我找不到该文件。我只能看到kernel.cu.obj和kernel.cu.cache文件在输出调试directory.What中会出错吗？更新：如果我转到Properties->CUDA C/C++ ->公共->保存预处理文件并设置YE

浏览 8提问于2015-07-27得票数 1

回答已采纳

1回答

用Clang/CUDA解析CUDA关键字shared

cuda、clang、llvm-clang、llvm-ir

由于可以使用Clang进行CUDA编译，所以我对clang转换为中间表示(IR)的cuda代码(.cu文件)很感兴趣。 Clang的CUDA汇编需要某些CUDA图书馆。那么，对CUDA程序中关键字__shared__的解析是由Clang还是由CUDA编译器完成的呢？根据我最初的搜索，我相信转换是由数据自动化系统而不是Clang完成的。这种理解是正确的吗？

浏览 5提问于2016-01-12得票数 0

回答已采纳

1回答

PTX和CUBIN w.r.t有什么区别？NVCC编译器？

cuda、nvidia、nvcc、ptx

我已经安装了CUDA 4.0，以及一个具有计算功能2.0 ( GTX 460卡)的设备。 'cubin‘和'ptx’文件有什么区别？我认为古巴是gpu的原生代码，所以这是针对微体系结构的，ptx是通过JIT编译运行在费米设备(例如Geforce GTX 460)上的一种中间语言。当我编译一个.cu源文件时，我可以在ptx或cubin目标之间进行选择。如果我想要古巴文件，我选择code=sm_20。但是如果我想要一个ptx文件，我使用code=compute_20。这是正确的吗？

浏览 0提问于2011-10-08得票数 13

2回答

使用CMAKE的cuda_compile_ptx编译成ptx

cuda、cmake、nvcc

文件kernel.cu中有一个简单的内核 __global__ void add1( double * pi, double c ) { *pi += c; } 并可以轻松地将其编译到ptx文件kernel.ptx中： nvcc -ptx kernel.cu 现在，我想使用以下CMakeLists.txt使用cmake再现相同的行为： cmake_minimum_required(VERSION 2.8) project(cmake_ptx) find_package(CUDA REQUIRED) cuda_compile_ptx( test kernel.cu )

浏览 6提问于2014-10-04得票数 4

回答已采纳

1回答

共享内存的int和float的atomicAdd有不同的SASS

sass、cuda、atomic、gpu-shared-memory

我遇到了一个性能问题，在与float进行分析之后，共享内存的float上的nv-nsight-cu-cli比int上的nv-nsight-cu-cli要昂贵得多。在检查生成的SASS之后，我发现float上的共享内存的SASS与int上的SASS完全不同。在这里，我用最小的cuda代码展示了一个示例： $ cat test.cu

浏览 9提问于2022-01-30得票数 0

回答已采纳

2回答

如何让CMake也为我的内核创建PTX文件

build、cmake、cuda、ptx

我正在使用CUDA代码构建一个项目，使用具有内部CUDA支持( >= 3.8或更高版本，如果需要)的最新CMake。我如何告诉CMake为我的各种内核生成PTX文件？我试过的东西没有(?)工作：从CMake 3.9开始，我们可以使用CUDA_PTX_COMPILATION property将对象库定义为具有PTXes而不是种类的对象 add_library(myptx OBJECT a.cu b.cu) set_property(TARGET myptx PROPERTY CUDA_PTX_COMPILATION ON) 然而，这并不是问题的适当解决方案--缺少一些东西。假设我们

浏览 50提问于2019-05-05得票数 1

1回答

PTX码性能

cuda、gpgpu、ptx

我知道数据自动化系统(不错)，但我不知道，所以我的问题是：学习ptx代码是否有助于提高gpu (CUDA)代码的性能？如果是，是否有一种方法可以编写ptx代码与CUDA代码相结合以提高性能？

浏览 1提问于2016-03-29得票数 0

回答已采纳

1回答

如何用并行nsight在visual studio 2010中调试库达推力函数

visual-studio-2010、cuda、thrust、nsight

我正在使用visual 2010，并行nsight 2.2和cuda 4.2进行学习。我的系统是Windows8pro x64。我在VS中打开了cuda计算SDK中包含的基排序项目，并且没有错误地编译它。排序代码使用推力库： if(keysOnly) thrust::sort(d_keys.begin(), d_keys.end()); else thrust::sort_by_key(d_keys.begin(), d_keys.end(), d_values.begin()); 我想知道推力如何将排序函数分派给cuda内核，所以我尝试在上面的行前面添加断点，并在调试模式下

浏览 0提问于2012-11-15得票数 6

1回答

CUDA JIT编译器执行设备链接时间优化吗？

cuda、cuda-driver

在CUDA 11.2中引入设备链路时间优化(DLTO)之前，相对容易地确保前向兼容性，而不必担心性能上的差异。通常，您只需创建一个包含PTX的加脂二进制文件，用于您通常要针对的特定体系结构的最低可能的arch和SASS。对于任何未来的GPU体系结构，JIT编译器都会将PTX组装成针对特定GPU arch进行优化的SASS。然而，现在，对于DLTO，我不太清楚如何确保这些未来体系结构的前向兼容性和保持性能。假设我使用nvcc编译/链接一个应用程序，有以下选项：编译 -gencode=arch=compute_52,code=[compute_52,lto_52] -gencode=arch

浏览 8提问于2021-05-10得票数 2

回答已采纳

1回答

在CUDA的PTX文件中，".file“指令的用途是什么？

cuda

据我所知，CUDA的PTX文件是设备运行时JIT编译的虚拟字节码。这意味着该文件是跨平台的，您可以生成PTX文件，它将在任何CUDA兼容设备上运行。但是，当我在文本编辑器中读取该文件时，我看到这些指令".file“，其中包含有关我为其编译该文件的原始计算机上的文件的信息。所以我不确定这些指令的目的是什么。另外，考虑到我生成的PTX文件不应该依赖于这些文件，可以安全地删除这些文件吗？(例如，如果我想开始编写自己的PTX生成器)。

浏览 0提问于2011-11-26得票数 1

回答已采纳

2回答

在CUDA NVRTC代码中包括C标准报头

cuda、preprocessor、stdint、nvrtc

我正在编写一个在运行时使用NVRTC编译的CUDA内核(CUDA版本9.2和NVRTC版本7.5)，它需要stdint.h头，以便具有int32_t等类型。如果我编写的内核源代码没有包含，它的工作正常。例如，内核 extern "C" __global__ void f() { ... } 编译成PTX代码，其中f被定义为.visible .entry f。但是如果内核源代码是 #include <stdint.h> extern "C" __global__ void f() { ... } 它报告A function without exec

浏览 5提问于2018-05-28得票数 5

回答已采纳

1回答

PGI编译器可以将生成的Cuda代码输出到文件中吗

cuda、openacc、pgi

我希望生成的CUDA代码保存在一个文件中以供检查。这在OpenAcc和PGI编译器中是可能的吗？

浏览 25提问于2015-10-21得票数 0

1回答

CMAKE Cuda/ptx项目上重复的代码生成标志

visual-studio、cmake、cuda

我想编译cuda到ptx进行嵌入。为此，我在visual 16(2019)生成器中使用CMAKE 3.18.5，这是该项目的要求。我遇到的问题是目标标志是复制的compute_75,compute_75;compute_75,sm_75，正因为此，nvcc拒绝将其编译到ptx。 Studio\2019\Community\MSBuild\Microsoft\VC\v160\BuildCustomizations\CUDA文件(x86)\Microsoft Visual 2>C:\Program 11.2.目标(625，9)：错误:指定了多个代码生成选项，只有当2>C：\Progr

浏览 1提问于2021-02-01得票数 4

1回答

共享内存与OpenACC的使用

cuda、openacc

我正在尝试使用共享内存来缓存OpenACC。基本上，我所做的是矩阵乘法，我有： typedef float ff; // Multiplies two square row-major matrices a and b, puts the result in c. void mmul(const restrict ff* a, const restrict ff* b, restrict ff* c, const int n) { #pragma acc data copyin(a[0:n*n], b[0:n*n])

浏览 6提问于2012-10-17得票数 3

回答已采纳

1回答

cuModuleLoadDataEx选项

cuda

我正在尝试对PTX代码进行JIT编译。代码编译和运行，但与生成代码的cuda C相比，速度非常慢。尝试尝试运行从cuda C生成的PTX代码较慢的原因(两者都针对compute_20/sm_20)，我想在我的调用cuModuleLoadDataEx中设置选项，以确保它针对compute_20/sm_20，但我似乎无法正确传递选项。目前我有 CUjit_option options[] = { CU_JIT_TARGET } CUjit_target_enum target = CU_TARGET_COMPUTE_20 void *optionValues[] = { &

浏览 1提问于2012-06-08得票数 1

1回答

将CUDA .cu文件转换为PTX文件

windows、visual-studio、cuda、ptx

我在将.cu转换为.ptx时遇到了问题。我使用的nvcc如下： "C:\ Program \NVIDIA GPU计算工具包\CUDA\v5.0\bin\nvcc“-ptx -ccbin "C:\ Program (X86)\MicrosoftVisualStudio10.0\VC\bin”-o foo.ptx foo.cu 作为回报，将显示以下内容： foo.cu c1xx :致命错误C1083:无法打开源代码文件：'foo.cu'：没有这样的文件或目录 foo.cu位于\CUDA\v5.0\bin中。

浏览 3提问于2013-05-15得票数 2

回答已采纳

1回答

无法在CUDA驱动程序接口中加载.cubin模块

cuda

我使用的是0.3.1 JCuda和3.1 nvidia cuda sdk。我正在尝试从运行JCudaRuntimeDriverMixSample.java。我用"nvcc -keep invertVectorElements.cu“编译了.cu文件。我将生成的.sm_10.cubin文件设置为cuModuleLoad文件名。当我运行编译后的java文件时，我得到的是CUDA_ERROR_INVALID_SOURCE。我在GTS 450 gpu上运行nvidia驱动程序256.53版。

浏览 1提问于2010-10-01得票数 0

2回答

如何从CUDA C调用ptx函数？

assembly、cuda、inline-assembly

我正在尝试找到一种从CUDA C调用ptx函数(.func)的方法。假设我有一个ptx函数，如下所示： .func (.reg .s32 %res) inc_ptr ( .reg .s32 %ptr, .reg .s32 %inc ) { add.s32 %res, %ptr, %inc; ret; } 我知道我可以从ptx调用它，如下所示： call (%d), inc_ptr, (%s, %d); 但我不知道如何从CUDA C调用它，我知道我可以用asm()内联ptx程序集，但我还没有找到内联函数的方法。希望有人能帮忙！谢谢!

浏览 0提问于2012-06-20得票数 3

1回答

在没有委托给其他编译器的情况下，如何在.cu文件上调用nvcc？

java、cuda

我正在使用JCuda构建CUDA应用程序。在某些平台下，比如最新版本的Ubuntu，默认的gcc版本会比nvcc兼容的版本高。这使得设置我的开发环境变得很麻烦。因为我只关心生成PTX文件(应该是可移植的)，所以我的印象是我实际上不需要GCC或任何其他编译器。可以在没有任何默认编译器的情况下调用nvcc来编译这种类型的代码吗？这将使从Java代码编译内核变得更加健壮，并且可用于任何平台。

浏览 2提问于2011-11-25得票数 2

回答已采纳

1回答

如何在运行时生成、编译和运行CUDA内核

cuda、compilation、gpgpu、ptx

嗯，我有一个相当微妙的问题:) 让我们从我所拥有的开始： data ，大型数据数组，复制到GPU Program，由CPU (主机)生成，需要对该数组中的每个数据进行评估。程序非常频繁地更改，可以生成CUDA字符串、PTX字符串或其他(?)而需要在每次更改后重新评估。我想要的是:基本上只是想使它尽可能有效(快速)，例如。避免将CUDA汇编到PTX。解决方案甚至可以完全针对设备，这里不需要很大的兼容性:) 我知道的是:我已经知道函数cuLoadModule，，它可以从存储在文件中的PTX代码加载和创建内核。但我认为，必须有其他方法直接创建内核，而不必先将其保存到文件中。

浏览 2提问于2013-11-07得票数 7

回答已采纳

1回答

什么时候NVRTC的编译应该产生一种古巴蛋白？

cuda、linker、ptx、nvrtc、cubin

如果我正确地理解了中的工作流描述，下面是它的工作方式：从源文本创建一个NVRTC程序。编译NVRTC程序以获得PTX代码。设备-使用NVIDIA的驱动程序API (cuLinkCreate，cuLinkAddData，cuLinkComplete)链接PTX代码以获得cubin。然而..。从CUDA 11.3开始，NVRTC有以下API调用： nvrtcResult nvrtcGetCUBIN ( nvrtcProgram prog, char* cubin ); 那么，我怎么能有一个古巴后，只汇编？

浏览 8提问于2021-10-30得票数 1

回答已采纳

1回答

基于驱动程序API的CUDA动态并行

cuda、dynamic-parallelism

我正在尝试编译和链接动态内核，并将其与CUDA驱动程序API一起使用在GK110上。我在Visual中使用可重定位的设备代码标志和.cu、sm_35编译成ptx文件，然后CUDA链接器添加cudadevrt.lib (至少它试图根据链接器调用)。当我在ptx上做cuModuleLoad时，它说不支持设备代码。还有一个设备链接. of，它看起来很小，而且没有驱动程序api函数，似乎可以将它识别为一个有效的映像。在检查ptx文件时，我可以看到它根据CUDA文档( PTX部分的动态并行性)生成了对内核启动函数的调用。如何链接适当的设备代码以使动态内核调用工作？ (这是Win64和VC2013上的

浏览 5提问于2015-01-07得票数 3

回答已采纳

1回答

NVIDIA安培GPU架构兼容性

cuda

请任何人帮助我理解NVIDIA设备系列30安培架构和兼容的CUDA版本？从这里到整个网络，我了解到在CUDA工具包中添加了对安培的v11支持：我不明白的是，这样做有什么意义：部分 “1.3.1.使用CUDA工具包10.2或更早版本构建的应用程序” 那么，‍♂️是否适用于CUDA 10.1呢？非常感谢

浏览 9提问于2022-11-30得票数 1

1回答

与CUDA、Clang和LLVM IR作斗争，并得到: CUDA故障：“无效设备功能”

cuda、llvm、clang++、powerpc

我试图优化一个PowerPC系统(RHEL7.6，没有根访问)上的LLVM传递的CUDA代码，该系统配备了V100 GPU、CUDA10.1和LLVM 11 (从源代码构建)。此外，我还测试了clang、lli和opt的一个简单的C++代码，一切都很好。经过数天的搜索、阅读和反复试验，我成功地编译了一个简单的CUDA源代码。代码是著名的axpy #include <iostream> #define cudaCheckError() \ {

浏览 2提问于2021-04-13得票数 1

回答已采纳

1回答

MATLAB代码的code实现

matlab、cuda、mex、ptx

我最近购买了一个gpuarrays GPU，希望能加快并行代码的速度，并需要一些帮助来决定如何将MATLAB代码转换为CUDA代码(我已经从MATLAB中的普通P100移开了)。我对.ptx内核和MEX-files进行了实验，并与两者都遇到了一些障碍。并行代码具有元素幂、元素乘法、FFT和IFFT调用。它还包含复数。是否从CUDA内核或MEX文件编译的.ptx文件更容易处理，这将使我能够执行我必要的快速傅立叶变换，IFFT，exp和多个调用？

浏览 5提问于2017-07-17得票数 0

1回答

用nvdisasm生成PTX代码的控制流图像

parallel-processing、cuda、gpu、ptx、intermediate-language

我有一个文件的CUDA代码编译成中间语言PTX代码，example.ptx。我很有兴趣开始浏览这个短文件，试图了解它是如何工作的。我以前没有处理中间代码表示的经验，但据我所知，我可以用一些方法打印出控制流的图形，以支持我尝试反向工程。提到了nvdisasm，并显示了很好的图形控制流，但它似乎只适用于古巴文件。我知道这些古巴文件是进一步优化从PTX，取决于目前的GPU架构。我的问题是:我是否可以使用nvdisasm从example.ptx生成控制流映像，或者将ptx文件编译成cubin文件，并使用它生成图像？

浏览 1提问于2021-01-29得票数 0

5回答

如何编译PTX代码

cuda、nvcc、ptx

我需要修改PTX代码并直接编译它。原因是我希望有一些特定的指令在彼此之后，而且很难编写一个cuda代码，从而导致我的目标PTX代码，所以我需要直接修改ptx代码。问题是我可以将其编译到(fatbin和cubin)，但我不知道如何将这些文件(.fatbin和.cubin)编译为"X.o“文件。

浏览 34提问于2013-11-15得票数 10

1回答

NVCC生成的PTX代码对寄存器非常慷慨，这是不好的吗？

optimization、cuda、instruction-set、ptx

最近，我阅读了生成的CUDA内核的PTX代码。我意识到许多寄存器只是用来存储中间值，然后就再也不用了，NVCC似乎对寄存器的重用不太在意，而是选择在创建新数据时只使用一个新的寄存器。这引发了这样的问题:是否值得手动检查PTX代码并尽量减少寄存器的使用，还是PTX在运行时处理的问题？

浏览 15提问于2022-07-20得票数 0

回答已采纳

1回答

带有PTX输出的NVCC单独编译

gcc、cuda、nvcc、ptxas

为了了解CUDA正在生成什么样的代码，除了一个对象文件之外，我还喜欢编译到ptx。由于我的一些循环展开可能需要很长一段时间，所以我希望能够编译*.cu**→*`.ptx`**→*`.o`，而不是在*.cu**→*`.ptx`和*.cu**→*`.o`，上浪费时间。只需将-ptx添加到nvcc *.cu行即可获得所需的ptx输出。使用ptxas -c将*.ptx编译成*.o可以工作，但会导致可执行链接：Relocations in generic ELF (EM: 190)中的一个错误。使用*.ptx编译nvcc的尝试以静默方式失败，没有输出任何内容。有什么选择我需要传递给ptxa

浏览 19提问于2014-01-21得票数 2

回答已采纳

1回答

如何从cuda exe中提取ptx及相关的cuda编译器问题

cuda、gpu

1)我想从CUDA exe中提取ptx代码，并在另一个程序中使用该内核代码。有没有办法从可执行文件中识别内核ptx代码。我知道它们是任意排列在exe文件数据部分中的。我了解到在MAC可执行文件中，ptx内核以.version开头，以空字符串结束。win exe(PE)文件有类似的东西吗？我想我需要解析exe文件，一次收集一条ptx语句，然后将它们组合在一起作为内核。但我不知道我该怎么做。一些帮助会让我开始。我还在Cuda exe中找到了一个.nvFatBi部分。那应该是什么？ 2)我还了解到，有一些全局构造函数可以将cubin注册到cuda运行时。我不完全理解这一部分。函数cudaRegis

浏览 1提问于2011-06-21得票数 0

回答已采纳

1回答

CUDA、MySQL和CMake

mysql、cuda、cmake、mysql-connector

我正在尝试创建一个CUDA程序(这是我的新手)，首先要从远程MySQL数据库获取信息。在CUDA调用之前，我在程序内部使用了MySQL网站上的Connector/C库。我可以用MySQL编译我的程序，当我使用的时候使用的是MySQL(没有任何CUDA代码)，但是不能用nvcc ( CUDA编译器)。一位熟悉CUDA的同行向我提到，他不得不编译一些他正在使用nvcc做的libjpg代码，以避免“错误的架构”和链接问题。他建议我用nvcc编译Connector/C库。但是，连接器/C库使用CMake而不是常规的Makefile。因此，作为CMake的新手，我研究了一些东西，找到了工具链文件，它

浏览 1提问于2011-03-02得票数 1

2回答

如何在CUDA 4.1/4.2/5.0中输出带C/C++注释的PTX

cuda、llvm、ptx

有谁知道如何在新的LLVM后端使用C/C++代码注释PTX汇编程序？我可以通过CUDA 4.0或更早版本轻松获得它，但在将CUDA工具包升级到4.2版后，NVCC拒绝我的所有标志。

浏览 1提问于2012-07-14得票数 10

回答已采纳

1回答

“code=sm_X”是只嵌入二进制(cubin)代码，还是也嵌入PTX代码，还是两者都嵌入？

cuda、nvcc

我对“-gencode”语句中的“code=sm_X”选项感到有点困惑。一个例子: NVCC编译器选项是什么？ -gencode arch=compute_13,code=sm_13 藏在图书馆里？只有用于具有CC1.3的GPU的机器代码(cubin代码)，或者也用于具有CC1.3的GPU的PTX代码？在'Maxwell兼容性指南‘中，声明“只有'code=’子句指定的后端目标版本将保留在最终的二进制文件中”。由此，我可以推断，给定的编译器选项只嵌入具有CC1.3的GPU的机器代码，而不包含PTX代码。这意味着不可能运行这个库，例如在aa Maxwell生成卡上，因为库

浏览 4提问于2014-10-07得票数 3

回答已采纳

2回答

在Nvidia的NVCC编译器中使用多个"arch“标志的目的是什么？

cuda、nvcc、ptx

我最近开始思考NVCC是如何为不同的计算架构编译CUDA设备代码的。据我所知，当使用NVCC的-gencode选项时，"arch“是程序员应用程序所需的最小计算架构，也是NVCC的JIT编译器将编译PTX代码所针对的最小设备计算架构。我还了解到-gencode的“代码”参数是计算体系结构，NVCC完全为其编译应用程序，因此不需要进行即时编译。在检查了各种CUDA项目Makefile后，我注意到以下情况经常发生： -gencode arch=compute_20,code=sm_20 -gencode arch=compute_20,code=sm_21 -gencode arch

浏览 0提问于2013-07-12得票数 41

回答已采纳

2回答

将PTX程序直接传递给CUDA驱动程序

c、cuda、ptx

CUDA驱动程序API提供从文件系统加载包含PTX代码的文件。人们通常会执行以下操作： CUmodule module; CUfunction function; const char* module_file = "my_prg.ptx"; const char* kernel_name = "vector_add"; err = cuModuleLoad(&module, module_file); err = cuModuleGetFunction(&function, module, kernel_name); 如果有人在运行时生成P

浏览 1提问于2013-04-06得票数 6

回答已采纳