CUDA的取整模式可以为内核全局设置吗？

c++、floating-point、cuda

本文讨论了CUDA对浮点舍入模式的处理，here和各种内部函数(如__fadd_rn )可用于执行四舍五入的浮点选项(在本例中为四舍五入)。但是，如果我想切换代码块的舍入模式，这就变得很笨拙了。在主机端，我可以使用fesetenv and friends为线程设置浮点取整模式。有没有办法为流或内核设置CUDA的浮点取

浏览 55提问于2021-05-09得票数 1

1回答

CUDA的细粒度内存检查器？

debugging、cuda

我怀疑我在运行的大型CUDA内核中存在细粒度内存错误。设备端printf显示了一些变量的可变值，这些值应该是确定性的。我使用的CUDA开发工具的“稳定”版本去掉了设备仿真模式，它的cuda-gdb版本不能使用模板化函数。Cuda-memcheck运行，但没有捕获任何内容。在cpu上，我会使用valgrind或电栅栏来捕获这样的内存错误。如果只有printf可用，那

浏览 0提问于2011-05-15得票数 1

回答已采纳

1回答

封装CUDA内核的最佳方法是什么？

c++、cuda

我正在努力使一个CUDA项目尽可能接近OO设计。目前，我发现的解决方案是使用Struct封装数据，对于每个需要进行GPU处理的方法，需要实现3个函数：我给你举个例子。假设我需要实现一个方法来初始化结构中的缓冲区。看起来应该是这样的：{ short2 bu

浏览 2提问于2012-04-15得票数 4

回答已采纳

1回答

CUDA流、纹理绑定和异步memcpy

asynchronous、concurrency、cuda、textures

我在CUDA上写了一些信号处理，最近在优化它方面取得了巨大的进步。通过使用一维纹理和调整我的访问模式，我设法获得了10×性能提升。(我以前尝试过事务对齐预取从全局到共享内存，但后来发生的非统一访问模式破坏了翘曲→共享缓存库关联(我认为))。所以现在我面临的问题是，CUDA的纹理和绑定是如何与异步memcpy交互的。，既然只有一个纹理引用，那么当我将一个缓冲区绑定到一个纹理上，而其

浏览 2提问于2012-09-13得票数 3

回答已采纳

1回答

在CUDA中写入全局内存

cuda、opencl、gpu、gpgpu、nvidia

我想问一下在CUDA中写入全局内存的效果。众所周知，全局内存读取通常对性能(合并、高速缓存、存储体冲突)有很大影响，因为它们可能需要相当多的周期来等待传入的内存，这可能会在某个时刻阻塞执行。然而，CUDA中的写入内存又如何呢？它是否受到任何类型的内存写入模式的影响？总成本直接就是内核中所有写操作的总和吗？任何相关的参考资料和评

浏览 0提问于2012-02-02得票数 3

回答已采纳

1回答

初始化全局内存变量后的全局__syncthreads()

cuda

我有一个CUDA内核，它从将全局计数器设置为零开始，执行一些计算，递增共享计数器，然后将不同块的共享计数器添加到全局计数器。现在，我要确保初始化发生在全局计数器的任何增量之前。下面是我的内核的一个简化示例：{ __编程指南的</e

浏览 0提问于2016-05-10得票数 0

2回答

我不能在CUDA内核中设置断点

cuda、nsight

我是NSIGHT和CUDA的新手。我试图在我的CUDA内核代码中设置一个断点，但我不能--断点是在内核的末尾设置的，而不是在我想调试的特定行上设置的。我正在使用VS2010 (MFC项目)与NSIGHT 2.2和CUDA 4.2。我在一个不是"StratUp项目“的项目

浏览 3提问于2013-02-27得票数 1

回答已采纳

1回答

我一直在写一些基本的CUDA Fortran代码。我希望能够确定我的程序使用的每个线程块的共享内存量(用于占用率计算)。我一直在用-Mcuda=ptxinfo编译，希望能找到这些信息。，320字节cmem 这是输出中唯一提到smem的地方。在全局子例程main_kernel中有一个具有shared属性的数组。似乎只统计了main_kernel中的共享内存:我的代码中的设备子例程使用具有shared属

浏览 1提问于2014-11-27得票数 0

1回答

Cuda分析器说我的两个内核都很昂贵，但是它们的执行时间似乎很短。

performance、cuda、kernel、profiler

我使用两个内核，让我们称它们为A，一个B。第一个内核有44%的开销，而第二个内核有20%的开销。但是，如果我决定通过以下逻辑找出实际的执行时间：gettimeofday(&tim, NULL); double before = tim.tv_sec+(tim.tv_usec我是CUDA的新手，我不太明白到底是怎么回事。我应该尝试让内核</em

浏览 2提问于2013-05-15得票数 0

回答已采纳

2回答

将fpu切换为单精度

performance、assembly、optimization、x86、x87

我在fpu之前几年读到过，当切换到单精度模式时，除法和sqr的速度是正常模式的两倍。它仍然是这样的吗?这样的切换可以加快一些循环的速度，使内部产生大量的浮点代码？与第二个问题相关，例如，当进行系统(winapi)调用时，我可以在代码中自由地玩弄FPU精度吗，与fpu取整模式和系统端一样，api是否也会破坏我对它的设置</e

浏览 2提问于2012-10-03得票数 3

3回答

Nvidia CUDA中的预取

cuda、nvidia、prefetch

我正在研究nVidia CUDA中的数据预取。我阅读了一些关于设备本身预取的文档，即从共享内存到缓存的预取。但我对CPU和GPU之间的数据预取很感兴趣。有没有人能给我一些关于这件事的文件或东西？

浏览 1提问于2011-10-17得票数 1

1回答

具有全局内存的Cuda内核与具有常量内存的Cuda内核

memory、cuda、constants、global

我有两个核来做矩阵乘法，一个使用全局内存，另一个使用常量内存。我想使用Cuda分析器来测试两个内核的速度。我在1.3设备和2.0设备上都进行了测试。我原以为拥有恒定内存的内核在1.3设备上会更快，而全局内存内核在2.0设备上会更快，因为在这些设备上使用了全局内存缓存，但是我发现在这两种设备中全局内存内核都更快。这是由于内存聚集在全局内存上吗？如

浏览 5提问于2014-03-04得票数 0

回答已采纳

1回答

发布模式与调试模式之间的CUDA运行时差异

visual-studio-2013、cuda、nvcc

我在运行CUDA 7.0.28 内核函数中有断点的方法吗？情况似乎并非如此。

浏览 5提问于2015-07-27得票数 0

回答已采纳

1回答

CUDA内核代码的设备内存:它是否可显式管理？

memory-leaks、cuda

上下文: GeForce GTX480上的CUDA 4.0，Linux64位，NVIDIA UNIX x86_64内核模块270.41.19。我尝试在我的程序中查找(设备)内存泄漏。我注意到在内核执行后有一个很大的损失(在这个例子中是31M)。内核代码本身不分配任何设备内存。所以我猜它是保留在设备内存中的内核代码。甚至我都会认为内核并没有那么大。(有没有办法确定内核的大小？)<e

浏览 3提问于2011-08-22得票数 1

2回答

链接错误:函数_cudaRegisterLinkedBinary中引用的未解析外部符号__cudaRegisterAll

visual-studio-2008、cuda

我正在使用CUDA 5.0编写Visual 2008。我使用CUDA运行时API作为构建规则。我正在尝试编译一个test.cu文件，其中包含一个主函数和一个全局内核。主函数和内核都包含外部库函数调用，我使用相同的CUDA环境编译了这些函数，启用了可重定位的设备代码标志，并且NVCC编译类型为-c。在CUDAV5.0中，但是在v4.2中没有这样的东西。，对吗？有人能帮我解决这个错误吗</em

浏览 6提问于2012-12-14得票数 3

1回答

CUDA统一内存页，可在CPU中访问，但未从GPU中删除

cuda、tesla、unified-memory

我试着理解CUDA统一记忆的功能。我读过关于CUDA的统一记忆，供初学者使用。我有一个使用x分配的整数数组( cudaMallocManaged() )。首先，我在GPU中预取数组并对其进行一些处理，然后将其预取到CPU并进行一些处理。在此期间，我在内存传输之前和之后打印GPU上可用的空闲内存。基于此，我有两个问题：在第一次预取期间，就在cudaMallocManaged()之后，空闲内存比我分配的内存减少得多。预取到CPU之前

浏览 23提问于2021-12-05得票数 -1

回答已采纳

2回答

如何在MNIST (用tf.layers构建)的CNN估计器中设置会话配置

tensorflow

当我试图在GPU上运行它时，它会给cuda_error_out_of_memory，分配整个GPU可用内存。我通过设置CUDA_VISIBLE_DEVICES="“环境变量在CPU上运行它，它运行得很好，但花费了很多时间。我寻找cuda_error_out_of_memory的解决方案，发现它可以通过在tf会话中设置config.gpu_options.allow_growth = True或config.gpu_options.per_process_gpu_memory_f

浏览 2提问于2017-05-01得票数 2

2回答

在我运行的cuda程序中，cpu和gpu可以异步计算，但不能协同计算，为什么？

c++、cuda

在我运行时的cuda程序中，cpu和gpu可以异步计算，但不能协同计算，为什么？我测量了程序的时间，总时间是cpu计算时间和gpu计算时间的总和.Through视觉配置文件，我发现gpu直到cpu完成才开始计算。我的目的是让cpu和gpu同时计算。平台: window 10vs2013#include "cuda_runtime.h" #include &qu

浏览 0提问于2016-12-05得票数 0

2回答

与Geforce相比，Tesla的内核开销要少多少？

c、cuda、kernel、nvidia

采用TCC模式的特斯拉(费米或开普勒)与采用WDDM的Geforce (同一代)相比？我写的程序有一些非常严重的内核开销问题，因为它必须重复运行内核，开销是如此巨大，我不得不将许多内核合并在一起，并交换内存空间以换取更少的内核启动，然而，由于GPU内存存储的巨大容量，它只能工作到目前为止我听说TCC模式可以有较少的开销，但它能将开销性能提高到CPU的</e

浏览 1提问于2013-03-15得票数 2

1回答

CUDA:是否可以将一个核心作为“主”来执行内存malloc，并运行其他的“逻辑代码”？

c++、tensorflow、cuda

我正在将一个C++程序移植到CUDA，所有的计算都是关于矩阵/向量的。第一个移植函数是矩阵的FFT。在将矩阵的FFT移植到CUDA后，发现CPU和GPU之间的数据传输几乎一直在进行。我遇到的问题是:在CPU功能中，有一些“代码片段”(就像FFT)可以移植到CUDA，但是这些代码是if/else代码，中间内存是malloc。我想减少数据传输CPU <->GPU。我的观点是将整个CPU功能移植到C

浏览 0提问于2021-02-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

CUDA的细粒度内存检查器？

封装CUDA内核的最佳方法是什么？

CUDA流、纹理绑定和异步memcpy

在CUDA中写入全局内存

初始化全局内存变量后的全局__syncthreads()

我不能在CUDA内核中设置断点

在CUDA* Fortran中确定共享内存使用情况*

Cuda分析器说我的两个内核都很昂贵，但是它们的执行时间似乎很短。

将fpu切换为单精度

Nvidia CUDA中的预取

具有全局内存的Cuda内核与具有常量内存的Cuda内核

发布模式与调试模式之间的CUDA运行时差异

CUDA内核代码的设备内存:它是否可显式管理？

链接错误:函数_cudaRegisterLinkedBinary中引用的未解析外部符号__cudaRegisterAll

CUDA统一内存页，可在CPU中访问，但未从GPU中删除

如何在MNIST (用tf.layers构建)的CNN估计器中设置会话配置

在我运行的cuda程序中，cpu和gpu可以异步计算，但不能协同计算，为什么？

与Geforce相比，Tesla的内核开销要少多少？

CUDA:是否可以将一个核心作为“主”来执行内存malloc，并运行其他的“逻辑代码”？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐