在内联PTX CUDA中简单添加向量_在简单的数值运算中，Cuda GPU比CPU慢_使用matlab在信号向量中添加噪声向量 - 腾讯云开发者社区

我看到一些代码示例，人们在C代码中使用内联PTX汇编代码。CUDA工具包中的Doc提到PTX很强大，为什么会这样？如果我们在C代码中使用这样的代码，我们会得到什么好处？

浏览 1提问于2012-09-17得票数 4

1回答

如何在CMake中更改cuda_compile_ptx的输出文件名？

、

在使用FindCUDA的CMAKE中，给定一个输入文件filename.cu，cuda_compile_ptx命令将生成格式为cuda_compile_ptx_generated_filename.cu.ptx的输出文件名，但我需要输出文件名的格式为filename.ptx。有没有一种简单的方法来实现这一点？

浏览 1提问于2012-04-13得票数 6

回答已采纳

2回答

使用CMAKE的cuda_compile_ptx编译成ptx

、、

文件kernel.cu中有一个简单的内核 __global__ void add1( double * pi, double c ) { *pi += c; } 并可以轻松地将其编译到ptx文件kernel.ptx中： nvcc -ptx kernel.cu 现在，我想使用以下CMakeLists.txt使用cmake再现相同的行为： cmake_minimum_required(VERSION 2.8) project(cmake_ptx) find_package(CUDA REQUIRED) cuda_compile_ptx( test kernel.cu )

浏览 6提问于2014-10-04得票数 4

回答已采纳

2回答

开发PTX而不是CUDA进行优化。这有意义吗？

、、、

我正在开发cuda代码。但新的设备语言是PTX或SPIR后端宣布的。我可以看到他们正在开发的一些应用程序。至少我认为我们可以说ptx语言足以在产品级上开发一些东西。正如我们所知，PTX不是真正的设备代码。它只是NVidia的中间语言。但我的问题是，如果我开发PTX而不是CUDA会怎么样？如果我使用ptx，我可以开发自然优化的代码吗？这有意义吗？另一方面，PTX语言的动机是什么？提前感谢

浏览 30提问于2014-03-04得票数 1

1回答

CUDA将多个.cu文件编译成一个文件

、、

我正在将一些计算从C#移植到CUDA。在C#中有许多我想要移植的类，对于每个c#类，我都在我的CUDA项目中创建了.cu和.cuh文件。所有相关的类，以及它们在计算中使用的所有类。我需要保存我的C#代码的结构，因为在其他情况下很容易出错。备注:如果我把所有的代码都放在一个文件里--一切都像预期的那样工作，但读取或修复一些问题会变得非常痛苦。我想编译CUDA项目，并通过ManagedCuda库在我的C#中使用它。我可以使用一个.cu文件将测试CUDA项目编译成.ptx文件，通过ManagedCuda将其加载到C#中，并从中调用函数。但是当我想用多个cu文件编译我的实际项目时，结果是项目中的

浏览 63提问于2018-03-22得票数 0

1回答

CUDA5.0示例AdvancedQuickSort

我正在阅读CUDA5.0示例(AdvancedQuickSort)。但是，由于以下代码，我无法完全理解此示例： // Now compute my own personal offset within this. I need to know how many // threads with a lane ID less than mine are going to write to the same buffer // as me. We can use popc to implement a single-operation warp scan in this case. unsigned

浏览 5提问于2012-11-24得票数 2

回答已采纳

1回答

如何用并行nsight在visual studio 2010中调试库达推力函数

、、、

我正在使用visual 2010，并行nsight 2.2和cuda 4.2进行学习。我的系统是Windows8pro x64。我在VS中打开了cuda计算SDK中包含的基排序项目，并且没有错误地编译它。排序代码使用推力库： if(keysOnly) thrust::sort(d_keys.begin(), d_keys.end()); else thrust::sort_by_key(d_keys.begin(), d_keys.end(), d_values.begin()); 我想知道推力如何将排序函数分派给cuda内核，所以我尝试在上面的行前面添加断点，并在调试模式下

浏览 0提问于2012-11-15得票数 6

4回答

用C#编写CUDA？

、

我一直在寻找一些关于用C#编写CUDA ( nvidia gpu语言)的信息。我看过一些库，但它们似乎会增加一些开销(因为p/invokes等)。我应该如何在我的C#应用程序中使用CUDA？用C++编写代码并编译成动态链接库是不是更好？使用包装器的开销是否会扼杀我从使用CUDA中获得的任何优势？有没有在C#中使用CUDA的好例子？

浏览 89提问于2011-06-25得票数 59

回答已采纳

1回答

当使用内联PTX ()指令时，“易失性”会做什么？

、、、

当我们用C/C++ CUDA代码编写内联PTX程序集时，例如： __device__ __inline__ uint32_t bfind(uint32_t val) { uint32_t ret; asm ("bfind.u32 %0, %1;" : "=r"(ret): "r"(val)); return ret; } 我们可以在volatile之后添加asm关键字，例如： __device__ __inline__ uint32_t bfind(uint32_t val) { uint32_t ret;

浏览 3提问于2017-04-23得票数 0

1回答

如何使用CUDA_FORCE_PTX_JIT？

、、

根据NVIDIA编程指南：运行时由应用程序加载的任何PTX代码将由设备驱动程序进一步编译为二进制代码。这就是所谓的即时编译。即时编译增加了应用程序的加载时间，但允许应用程序从最新的编译器改进中获益. ..。将CUDA_FORCE_PTX_JIT设置为1，将迫使设备驱动程序忽略嵌入在应用程序中的任何二进制代码(请参阅3.1.4节)，并立即编译嵌入式PTX代码；如果内核没有嵌入PTX代码，它将无法加载。我使用以下标志编译了我的简单vectorAdd： nvcc -o vectorAdd -gencode arch=compute_20,code=sm_20 vectorAdd

浏览 4提问于2013-01-27得票数 0

回答已采纳

1回答

我应该查看PTX来优化内核吗？如果是这样的话，是怎么做的？

、、、、

您是否建议阅读内核的PTX代码以进一步优化内核？举个例子:我读过，如果自动循环展开有效，我们可以从PTX代码中找到答案。如果不是这样，则必须在内核代码中手动展开循环。是否还有PTX代码的其他用例？你查过你的PTX代码了吗？我在哪里可以找到如何能够阅读为我的内核生成的PTX代码CUDA？

浏览 1提问于2011-11-10得票数 7

回答已采纳

1回答

是否有任何理由使用asm易失性用于PTX而没有副作用？

、、、

关于内联PTX的数据自动化系统( CUDA )文件中的部分说：编译器假定asm()语句除了更改输出操作数外没有任何副作用。为了确保asm在生成PTX期间不被删除或移动，您应该使用volatile关键字，例如： asm易失性(mov.u32 %0，%clock；"=r"(x))；如果我的内联PTX确实没有副作用以外的寄存器，我应该只是从来没有使用易失性，或在某些情况下，我可能仍然想要它？

浏览 3提问于2017-12-08得票数 0

1回答

库达常量内存使用跨多个源文件显示不同的行为在库达-11.2和库达-11.4

最低复制： kernel.cu： #include <stdio.h> __constant__ int N_GPU; void wrapper_fn(int *ptr) { cudaMemcpyToSymbol(N_GPU, ptr, sizeof(int), cudaMemcpyDeviceToDevice); } __global__ void printKernel() { printf("N = %d; \n", N_GPU); } driver.cu： #include "cuda_runtime.h" #inclu

浏览 13提问于2021-12-28得票数 0

1回答

nvlink内联设备可以从单独的编译单元运行吗？

、、、

如果作为输入提供给nvlink的单独编译单元包含cuda内核和设备函数，这些函数调用标记为__forceinline__的设备函数，这些函数会被内联吗？假设如果将所有源代码放入一个文件中，它们将是内联的。

浏览 3提问于2018-07-25得票数 0

1回答

错误：‘memcpy’未在此作用域中声明(Ubuntu 16.04，opencv2.4.13)

、、、

我试图为Ubuntu16.04安装opencv2.4.13for Ubuntu16.04，但是在运行make命令时遇到了类似这样的错误。 [ 1%] Built target opencv_core_pch_dephelp [ 1%] Built target pch_Generate_opencv_core [ 2%] Building NVCC (Device) object modules/core/CMakeFiles/cuda_compile.dir/__/dynamicuda/src/cuda/cuda_compile_generated_matrix_operations

浏览 80提问于2018-12-26得票数 0

回答已采纳

2回答

在CUDA NVRTC代码中包括C标准报头

、、、

我正在编写一个在运行时使用NVRTC编译的CUDA内核(CUDA版本9.2和NVRTC版本7.5)，它需要stdint.h头，以便具有int32_t等类型。如果我编写的内核源代码没有包含，它的工作正常。例如，内核 extern "C" __global__ void f() { ... } 编译成PTX代码，其中f被定义为.visible .entry f。但是如果内核源代码是 #include <stdint.h> extern "C" __global__ void f() { ... } 它报告A function without exec

浏览 5提问于2018-05-28得票数 5

回答已采纳

3回答

cuda上的128位整数？

、、、

我刚刚设法在Linux Ubuntu 10.04下安装了我的cuda SDK。我的显卡是英伟达geForce GT 425M，我想用它来解决一些繁重的计算问题。我想知道的是:有没有办法使用一些无符号的128位int？当使用gcc在CPU上运行我的程序时，我使用的是__uint128_t类型，但是在cuda上使用它似乎不起作用。有什么我可以做的有128位整数在cuda上？

浏览 3提问于2011-05-28得票数 14

回答已采纳

1回答

在JCuda中加载多个模块不起作用

、、

在jCuda中，可以以PTX或CUBIN格式加载cuda文件，并从Java调用(启动) __global__函数(内核)。考虑到这一点，我想用JCuda开发一个框架，在运行时在.cu文件中获取用户的__device__函数，加载并运行它。我已经实现了一个__global__函数，在该函数中，每个线程查找其相关数据的起点，执行一些计算、初始化，然后调用用户的__device__函数。下面是我的内核伪代码： extern "C" __device__ void userFunc(args); extern "C" __global__ void kernel()

浏览 1提问于2015-09-10得票数 3

回答已采纳

2回答

如何在CUDA 4.1/4.2/5.0中输出带C/C++注释的PTX

、、

有谁知道如何在新的LLVM后端使用C/C++代码注释PTX汇编程序？我可以通过CUDA 4.0或更早版本轻松获得它，但在将CUDA工具包升级到4.2版后，NVCC拒绝我的所有标志。

浏览 1提问于2012-07-14得票数 10

回答已采纳

1回答

在Qt中使用Cuda编译时出现链接错误

、、

我试图在32位Windows7系统上用Qt Creator 4.8.0编译Cuda代码(以.cu文件的形式)，但目前我失败了。我整理了以下项目文件： TARGET = TestCUDA DESTDIR = release OBJECTS_DIR = release/obj CUDA_OBJECTS_DIR = release/cuda SOURCES += main.cpp CUDA_SOURCES += test.cu CUDA_SDK = "C:/ProgramData/NVIDIA Corporation/NVIDIA GPU Computing SDK 4.2/C"

浏览 2提问于2012-09-04得票数 2

回答已采纳

1回答

NVIDIA安培GPU架构兼容性

请任何人帮助我理解NVIDIA设备系列30安培架构和兼容的CUDA版本？从这里到整个网络，我了解到在CUDA工具包中添加了对安培的v11支持：我不明白的是，这样做有什么意义：部分 “1.3.1.使用CUDA工具包10.2或更早版本构建的应用程序” 那么，‍♂️是否适用于CUDA 10.1呢？非常感谢

浏览 9提问于2022-11-30得票数 1

1回答

基于驱动程序API的CUDA动态并行

、

我正在尝试编译和链接动态内核，并将其与CUDA驱动程序API一起使用在GK110上。我在Visual中使用可重定位的设备代码标志和.cu、sm_35编译成ptx文件，然后CUDA链接器添加cudadevrt.lib (至少它试图根据链接器调用)。当我在ptx上做cuModuleLoad时，它说不支持设备代码。还有一个设备链接. of，它看起来很小，而且没有驱动程序api函数，似乎可以将它识别为一个有效的映像。在检查ptx文件时，我可以看到它根据CUDA文档( PTX部分的动态并行性)生成了对内核启动函数的调用。如何链接适当的设备代码以使动态内核调用工作？ (这是Win64和VC2013上的

浏览 5提问于2015-01-07得票数 3

回答已采纳

1回答

无法在CUDA驱动程序接口中加载.cubin模块

我使用的是0.3.1 JCuda和3.1 nvidia cuda sdk。我正在尝试从运行JCudaRuntimeDriverMixSample.java。我用"nvcc -keep invertVectorElements.cu“编译了.cu文件。我将生成的.sm_10.cubin文件设置为cuModuleLoad文件名。当我运行编译后的java文件时，我得到的是CUDA_ERROR_INVALID_SOURCE。我在GTS 450 gpu上运行nvidia驱动程序256.53版。

浏览 1提问于2010-10-01得票数 0

1回答

将CUDA .cu文件转换为PTX文件

、、、

我在将.cu转换为.ptx时遇到了问题。我使用的nvcc如下： "C:\ Program \NVIDIA GPU计算工具包\CUDA\v5.0\bin\nvcc“-ptx -ccbin "C:\ Program (X86)\MicrosoftVisualStudio10.0\VC\bin”-o foo.ptx foo.cu 作为回报，将显示以下内容： foo.cu c1xx :致命错误C1083:无法打开源代码文件：'foo.cu'：没有这样的文件或目录 foo.cu位于\CUDA\v5.0\bin中。

浏览 3提问于2013-05-15得票数 2

回答已采纳

1回答

我怎么读PTX？

我的工作能力3.5，CUDA 5和VS 2010 (显然Windows)。我有兴趣阅读编译后的代码，以更好地理解C代码更改的含义。在VS中我需要什么样的配置来编译代码以提高可读性(将编译设置为PTX足够了吗？) 我需要什么工具来反向工程生成的PTX才能读取它？

浏览 3提问于2013-06-01得票数 3

回答已采纳

1回答

用ptx指令'ldmatrix‘和'mma’编译cuda时出错

、、

当我打算使用ldmatrix和mma指令时，我从下面的代码中得到了错误。PTX说'ldmatrix‘是在PTX 6.5中引入的。所以我怀疑PTX版本可能是其中一个原因。我想知道怎样才能找到我们使用的PTX版本？造成这些错误的其他可能原因是什么？ __device__ void runldmatrix(typet & D, unsigned addr){ #if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 750)) int x, y, z, w;

浏览 17提问于2022-01-01得票数 0

回答已采纳

1回答

GPGPUsim PTX提取

、

正如标题所说，我正在学习如何使用GPGPUsim。当我阅读手册中的"PTX提取“部分时，我发现”在CUDA 4.0及以后的版本中，用于提取ptx和sass的胖古巴蛋白文件已不再可用。“，这让我感到困惑。如何理解这一点，在CUDA 4.0及更高版本中发生了什么。无论如何，谢谢你:)

浏览 13提问于2022-03-08得票数 1

回答已采纳

1回答

无法找到编译CUDA的.cubin或.ptx文件

、

我正在使用Visual 2013从事CUDA (7.0)项目。这个项目是64位。我正在使用驱动程序API，需要从ptx或cubin file.But加载模块，我找不到文件。在VS中，我使用Properties->CUDA C/C++ ->Common->NVCC编译类型，将其改为-cubin或ptx .the编译器完成，但我找不到该文件。我只能看到kernel.cu.obj和kernel.cu.cache文件在输出调试directory.What中会出错吗？更新：如果我转到Properties->CUDA C/C++ ->公共->保存预处理文件并设置YE

浏览 8提问于2015-07-27得票数 1

回答已采纳

1回答

无法使CUDA-模块在OpenCV 3.0测试版下工作

、、

在它的生命周期内，我无法让CUDA模块在OpenCV3.0Beta下与Visual Studio2013 64位专业版、CUDA SDK 6.5和Win7 64位一起工作。半年前，我用过的示例代码在OpenCV3.0Alpha上运行得天衣无缝。现在我甚至不能让cv:: CUDA ::flip工作；代码一直工作，直到它应该将Mat上传到CUDA，但随后它停止工作。谁能提供一个有效的示例代码，这样我就可以看到我忽略了什么？我之前做的所有步骤：在使用CUDA和OpenGL构建OpenCV3.0Beta并启用CMake和MSVC2013专业版之后，我在调试和发布OpenCV3.0Beta配置中构

浏览 1提问于2015-06-20得票数 0

1回答

理解cuobjdump输出

、、、、

我已经了，但我还有一些问题要问。我有一个cuda编译的可执行文件，其cuobjdump输出是 Fatbin elf code: ================ arch = sm_20 code version = [1,7] producer = cuda host = linux compile_size = 64bit Fatbin ptx code: ================ arch = sm_20 code version = [5,0] producer = cuda host = linux compile_size = 64bit compressed 我有两个

浏览 2提问于2019-09-09得票数 2

回答已采纳

2回答

如何让CMake也为我的内核创建PTX文件

、、、

我正在使用CUDA代码构建一个项目，使用具有内部CUDA支持( >= 3.8或更高版本，如果需要)的最新CMake。我如何告诉CMake为我的各种内核生成PTX文件？我试过的东西没有(?)工作：从CMake 3.9开始，我们可以使用CUDA_PTX_COMPILATION property将对象库定义为具有PTXes而不是种类的对象 add_library(myptx OBJECT a.cu b.cu) set_property(TARGET myptx PROPERTY CUDA_PTX_COMPILATION ON) 然而，这并不是问题的适当解决方案--缺少一些东西。假设我们

浏览 50提问于2019-05-05得票数 1

3回答

CUDA仅对一个变量禁用L1缓存

、、、、

在CUDA2.0设备上，有没有办法只针对一个特定变量禁用L1缓存？我知道可以在编译时禁用L1缓存，为所有内存操作向nvcc添加标志-Xptxas -dlcm=cg。但是，我只想对特定全局变量上的内存读取禁用缓存，以便所有剩余的内存读取都通过L1缓存。根据我在网上所做的搜索，一个可能的解决方案是通过PTX汇编代码。

浏览 57提问于2012-09-23得票数 13

回答已采纳

1回答

MATLAB代码的code实现

、、、

我最近购买了一个gpuarrays GPU，希望能加快并行代码的速度，并需要一些帮助来决定如何将MATLAB代码转换为CUDA代码(我已经从MATLAB中的普通P100移开了)。我对.ptx内核和MEX-files进行了实验，并与两者都遇到了一些障碍。并行代码具有元素幂、元素乘法、FFT和IFFT调用。它还包含复数。是否从CUDA内核或MEX文件编译的.ptx文件更容易处理，这将使我能够执行我必要的快速傅立叶变换，IFFT，exp和多个调用？

浏览 5提问于2017-07-17得票数 0

2回答

如何将编译器标志从clang传递到nvcc

、、、、

我正在尝试compile CUDA with clang，但是我尝试编译的代码依赖于一个特定的nvcc标志(-default-stream per-thread)。我如何告诉clang将标志传递给nvcc？例如，我可以用nvcc编译，一切都很好： nvcc -default-stream per-thread *.cu -o app 但是当我从clang编译时，程序不能正常运行，因为我不能传递default-steam标志： clang++ --cuda-gpu-arch=sm_35 -L/usr/local/cuda/lib64 *.cu -o app -lcudart_static -

浏览 76提问于2019-10-12得票数 1

回答已采纳

2回答

如何从CUDA C调用ptx函数？

、、

我正在尝试找到一种从CUDA C调用ptx函数(.func)的方法。假设我有一个ptx函数，如下所示： .func (.reg .s32 %res) inc_ptr ( .reg .s32 %ptr, .reg .s32 %inc ) { add.s32 %res, %ptr, %inc; ret; } 我知道我可以从ptx调用它，如下所示： call (%d), inc_ptr, (%s, %d); 但我不知道如何从CUDA C调用它，我知道我可以用asm()内联ptx程序集，但我还没有找到内联函数的方法。希望有人能帮忙！谢谢!

浏览 0提问于2012-06-20得票数 3

1回答

在Nvidia下读取共享/本地内存存储/加载库冲突的OpenCL可执行文件硬件计数器

、、、、

可以使用nvprof访问/读取CUDA exec的银行冲突计数器： nvprof --events shared_st_bank_conflict,shared_ld_bank_conflict my_cuda_exe 但是，它不适用于使用OpenCL的代码，而不是CUDA代码。有任何方法从ptx?Alternatively环境中提取nvprof之外的计数器吗?也许可以直接从OpenCL环境中提取PTX程序集，是否有方法将nvidia OpenCL编译器生成的PTX程序集使用带有CL_PROGRAM_BINARIES的clGetProgramInfo转换为CUDA内核并使用cuModuleL

浏览 5提问于2020-10-18得票数 1

1回答

不使用NVCC时是否使用NVIDIA的JIT编译缓存？

、、、、

我们都应该知道(但没有足够多的人这么做)，当您使用NVCC构建一个CUDA程序，并在一个设备上运行它，该设备的特定设备的完整编译(SASS)代码不包含在二进制文件中--中间PTX代码是JITed，其结果实际上用于运行内核。在此JITing期间，将启动一个，以便下次运行相同的可执行文件时，可以跳过编译，只需加载结果。现在，假设我正在编写C++文件，它在运行时动态编译内核，而不是使用NVCC，例如：我使用NVRTC的nvrtcCompileProgram()来编译CUDA C++代码，目标是一个具体的体系结构(例如sm_70)。我使用CUDA驱动程序的cuModuleLoad()加载

浏览 11提问于2022-05-16得票数 1

回答已采纳

1回答

Mac OS上的CUDA mathfunctions.hpp编译器错误:不能重载按返回类型区分的函数

、

我尝试使用下面的Makefile从编译代码。这是一个GPU燃烧器使用CUDA和我的Mac确实有GT750M。 1 CUDAPATH=/usr/local/cuda 2 3 # Have this point to an old enough gcc (for nvcc) 4 GCCPATH=/usr/bin/clang 5 6 NVCC=nvcc 7 CCPATH=${GCCPATH}/bin 8 9 drv: 10 PATH=${PATH}:.:${CCPATH}:${PATH} ${NVCC} -I${CUDAPATH}/include

浏览 0提问于2019-04-01得票数 2

回答已采纳

1回答

CUDA内联PTX ld.shared遇到cudaErrorIllegalAddress错误

、、、

我使用内联PTX ld.shared从共享内存加载数据： __shared__ float As[BLOCK_SIZE][BLOCK_SIZE]; //declare a buffer in shared memory float Csub = 0; As[TY][TX] = A[a + wA * TY + TX]; //load data from global memory to shared memory __syncthreads(); float t; asm("ld.shared.f32 %0, [%1];" :"=f"(

浏览 5提问于2021-11-12得票数 0

1回答

PTX码性能

、、

我知道数据自动化系统(不错)，但我不知道，所以我的问题是：学习ptx代码是否有助于提高gpu (CUDA)代码的性能？如果是，是否有一种方法可以编写ptx代码与CUDA代码相结合以提高性能？

浏览 1提问于2016-03-29得票数 0

回答已采纳

1回答

如何在运行时生成、编译和运行CUDA内核

、、、

嗯，我有一个相当微妙的问题:) 让我们从我所拥有的开始： data ，大型数据数组，复制到GPU Program，由CPU (主机)生成，需要对该数组中的每个数据进行评估。程序非常频繁地更改，可以生成CUDA字符串、PTX字符串或其他(?)而需要在每次更改后重新评估。我想要的是:基本上只是想使它尽可能有效(快速)，例如。避免将CUDA汇编到PTX。解决方案甚至可以完全针对设备，这里不需要很大的兼容性:) 我知道的是:我已经知道函数cuLoadModule，，它可以从存储在文件中的PTX代码加载和创建内核。但我认为，必须有其他方法直接创建内核，而不必先将其保存到文件中。

浏览 2提问于2013-11-07得票数 7

回答已采纳

2回答

实数CKKS编码Microsoft SEAL中的明文形式

、

我想知道CKKS中实数编码的明文的大小和形式，以小N为例：输入矢量阵列= 1.1，2.2N = 8，刻度Delta = 2^2 =4(槽数= N/2 = 4 ) 明文形式： ptx = 4.4 8.8 0.0 0.0 ( N/2 )或：ptx= 4.4 8.8 0.0 0.0 x 0.0 0.0 0.0 (N)，或：ptx= 4.4 8.8 0.0 x4.4 8.8 0.0 0.0 ( N ) 谢谢你的帮助!

浏览 6提问于2020-06-01得票数 1

回答已采纳

1回答

为什么PyTOR1.7与cuda10.1不能兼容Nvidia A100安培架构(根据PTX兼容价格)

、、、

根据，如果CUDA应用程序构建为包含PTX，因为PTX是向前兼容的，这意味着PTX支持在任何计算能力高于生成PTX的计算能力的GPU上运行。所以我试着找出torch-1.7.0+cu101是否是用PTX编译成二进制文件的，而事实似乎是用nvcc编译标志"-gencode=arch=compute_xx，code=sm_xx“.I编译的，认为这个标志意味着编译后的产品包含PTX。但是，当我尝试在a 100中使用pytorch1.7和cuda10.1时，总是会出现错误。 >>> import torch >>> torch.zeros(1).cuda()

浏览 60提问于2022-03-03得票数 -2

2回答

将PTX程序直接传递给CUDA驱动程序

、、

CUDA驱动程序API提供从文件系统加载包含PTX代码的文件。人们通常会执行以下操作： CUmodule module; CUfunction function; const char* module_file = "my_prg.ptx"; const char* kernel_name = "vector_add"; err = cuModuleLoad(&module, module_file); err = cuModuleGetFunction(&function, module, kernel_name); 如果有人在运行时生成P

浏览 1提问于2013-04-06得票数 6

回答已采纳

1回答

共享内存与OpenACC的使用

、

我正在尝试使用共享内存来缓存OpenACC。基本上，我所做的是矩阵乘法，我有： typedef float ff; // Multiplies two square row-major matrices a and b, puts the result in c. void mmul(const restrict ff* a, const restrict ff* b, restrict ff* c, const int n) { #pragma acc data copyin(a[0:n*n], b[0:n*n])

浏览 6提问于2012-10-17得票数 3

回答已采纳

1回答

与CUDA、Clang和LLVM IR作斗争，并得到: CUDA故障：“无效设备功能”

、、、

我试图优化一个PowerPC系统(RHEL7.6，没有根访问)上的LLVM传递的CUDA代码，该系统配备了V100 GPU、CUDA10.1和LLVM 11 (从源代码构建)。此外，我还测试了clang、lli和opt的一个简单的C++代码，一切都很好。经过数天的搜索、阅读和反复试验，我成功地编译了一个简单的CUDA源代码。代码是著名的axpy #include <iostream> #define cudaCheckError() \ {

浏览 2提问于2021-04-13得票数 1

回答已采纳

1回答

改变Tensorflow PTXAS定位

、、、

我目前正在尝试使用tensorflow 2.4.0自定义训练神经网络，使用RTX 3070运行CUDA 11.0和CUDNN 8。我遇到了这样一个问题，我可以训练模型，但实际上无法获得任何输出，因为当我运行时： output = model(x)遇到以下消息，我的jupyter内核会自动重新启动。 2021-01-08 20:52:53.437668: W tensorflow/stream_executor/gpu/asm_compiler.cc:191] Falling back to the CUDA driver for PTX compilation; ptxas does not

浏览 0提问于2021-01-09得票数 5

1回答

带有PTX输出的NVCC单独编译

、、、

为了了解CUDA正在生成什么样的代码，除了一个对象文件之外，我还喜欢编译到ptx。由于我的一些循环展开可能需要很长一段时间，所以我希望能够编译*.cu**→*`.ptx`**→*`.o`，而不是在*.cu**→*`.ptx`和*.cu**→*`.o`，上浪费时间。只需将-ptx添加到nvcc *.cu行即可获得所需的ptx输出。使用ptxas -c将*.ptx编译成*.o可以工作，但会导致可执行链接：Relocations in generic ELF (EM: 190)中的一个错误。使用*.ptx编译nvcc的尝试以静默方式失败，没有输出任何内容。有什么选择我需要传递给ptxa

浏览 19提问于2014-01-21得票数 2

回答已采纳

1回答

如何在没有主机编译器的情况下创建Cuda模块

我想在不与主机编译器交互的情况下创建一个用于Cuda驱动程序API的Cuda模块。这方面的主要推动力是，我们组中关于何时更改主机编译器和cuda编译器版本的决定并不总是在我们的控制范围之内。我想防止一方的升级会导致主机和cuda编译器之间的不兼容。例如，我有一个文件，test.cu，它只包含cuda设备代码。我想把它编译成ptx： nvcc --ptx kernel.cu 然后将其加载到执行程序中，如下所示： cuModuleLoad(&module, "kernel.ptx"); 当我试图编译cuda文件时，会得到以下错误： In file included fro

浏览 1提问于2015-05-22得票数 2

回答已采纳

1回答

用Clang/CUDA解析CUDA关键字shared

、、、

由于可以使用Clang进行CUDA编译，所以我对clang转换为中间表示(IR)的cuda代码(.cu文件)很感兴趣。 Clang的CUDA汇编需要某些CUDA图书馆。那么，对CUDA程序中关键字__shared__的解析是由Clang还是由CUDA编译器完成的呢？根据我最初的搜索，我相信转换是由数据自动化系统而不是Clang完成的。这种理解是正确的吗？

浏览 5提问于2016-01-12得票数 0

回答已采纳