在cuda内核上创建全局可访问的类实例_是否可以在堆栈上创建类的实例？_如何访问在locust中的worker实例中的环境类上设置的变量 - 腾讯云开发者社区

c++、object、cuda

我想运行一个Cuda内核，使一些进程并行化。我在cudaMemcpy的功能上遇到了一个问题，它似乎只产生对象的浅层副本。由于cudaMemcpy的这种行为，我无法正确地操作我复制到设备内存中的对象。因此，我试图通过将类成员分别复制到设备上并在设备上构建对象来解决问题。现在我的实际问题是，我只需要设备上类的一个实例，应该在<em

浏览 22提问于2021-11-19得票数 0

2回答

作为类成员的库达纹理？

cuda、textures、cuda-arrays

试图定义具有每个实例纹理的类。是的，该类的实例数量将很小。为了解决CUDA纹理必须是全局变量这一限制，我尝试了以下方法：不起作用。纹理不能作为参数传递(也不能通过指针或引用传递)，并且内核不识别数组名，

浏览 3提问于2014-03-01得票数 1

1回答

将指向设备constant内存的指针传递到内核，而不是直接使用

pointers、memory、cuda、constants

我正在使用CUDA 5.0和一个GTX 670在ubuntu 12.10上使用gcc 4.6，我还编写了一个名为Grid的类： cloudKernel<<< numBlocks, numThreads >>>(someDate, gridOnDeviceGlobal); 这很简单，但是内核必须从<

浏览 1提问于2013-02-28得票数 0

1回答

作为类的成员函数的CUDA内核

c++、windows、cuda

我使用的是CUDA 5.0和计算能力2.1卡。}; {} 如果不是，那么解决方案是创建一个包装器函数，它是类的成员，并在内部调用内核？如果是，那么它会像普通的私有函数一样访问私有属性

浏览 0提问于2012-12-07得票数 7

回答已采纳

1回答

加速神经网络计算

python、gpu、numba、acceleration

我正在努力完成Nvidia的“CUDA Python加速计算基础”课程，并完成了重构一些代码的简单版本的任务，这些代码执行在神经网络中创建隐藏层所需的工作：fromnumba import cuda, vectorize weights = cuda</em

浏览 19提问于2022-09-19得票数 1

2回答

向OpenCL内核通知多个内存对象的正确方式？

opencl、gpgpu

在我的OpenCL程序中，我最终将得到每个内核都需要能够访问的60+全局内存缓冲区。要让每个内核知道这些缓冲区的位置，推荐的方法是什么？缓冲区本身在应用程序的整个生命周期中都是稳定的--也就是说，我们将在应用程序启动时分配缓冲区，调用多个内核，然后只在应用程序端释放缓冲区。但是，当内核对它们进行读/写时，它们的内容可能

浏览 1提问于2012-06-16得票数 7

回答已采纳

1回答

数据自动化系统中的全球设备变量:不良实践？

cuda

我正在设计一个拥有大量CUDA内核的库来执行并行计算。所有内核都将作用于一个公共对象，比如使用C++样式对象定义的计算网格。计算域不一定需要从主机端访问，因此在设备端创建计算域并将其保持在当前状态是有意义的。我想知道以下几点是否被认为是“良好做法”： __device__域*D 然后，我使用

浏览 2提问于2015-07-23得票数 0

回答已采纳

2回答

提高2d图像“跟踪”CUDA内核性能的技巧？

performance、image-processing、optimization、cuda

我在一个具有1.3计算能力的设备上运行它(我需要在特斯拉C1060上使用它，尽管我现在正在GTX260上测试它，GTX260具有相同的计算能力)，我有几个类似下面的内核。我一个接一个地将几个数组复制到设备的全局内存中，因为我需要访问它们来计算所有长度为SUM的数组。在我的例子中，我不确定如何使用合并和共享内存，甚至不知道使用不同的数据部分多次调用

浏览 1提问于2013-07-03得票数 4

2回答

嗨，我有一个时间响应的问题，我在GPU上得到了比CPU更长的响应时间，使用的算法是矩阵乘法算法使用下面的函数： // Start timers cudaEvent_t timer1, timer2;上的代码： float Mult_gpu(float* hostPtr, float* hostPtr2, float* hostPtr3, int size, int Ncols, int Nrows上的代码 float Mul

浏览 29提问于2020-03-31得票数 1

回答已采纳

2回答

如何在多个内核启动之间同步全局内存？

cuda

}但是为什么在下一个内核启动时全局内存写入没有完成……这是因为设备重叠还是因为它总是这样？我想，当我们一个接一个地启动

浏览 0提问于2011-07-01得票数 0

1回答

在CUDA中将非POD类型作为global函数参数传递

cuda

我知道一般情况下，非POD类型不能作为参数传递给CUDA内核启动。但在我能找到解释的地方，我指的是一个可靠的来源，比如一本书，一本数据自动化系统手册，等等。

浏览 0提问于2013-11-16得票数 1

回答已采纳

1回答

Cuda虚拟类

c++、cuda、virtual-functions

我想在cuda内核中执行一些虚拟方法，但我不想在同一个内核中创建对象，而是希望在主机上创建它并将其复制到gpu内存中。那么推荐的方法是什么呢？或者这项功能根本不受支持？我的想法是首先运行一

浏览 2提问于2012-10-03得票数 6

回答已采纳

1回答

CUDA流、纹理绑定和异步memcpy

asynchronous、concurrency、cuda、textures

我在CUDA上写了一些信号处理，最近在优化它方面取得了巨大的进步。通过使用一维纹理和调整我的访问模式，我设法获得了10×性能提升。(我以前尝试过事务对齐预取从全局到共享内存，但后来发生的非统一访问模式破坏了翘曲→共享缓存库关联(我认为))。所以现在我面临的问题是，CUDA的纹理和绑定是如何与异步memcpy交互的。，既然只有一个纹理引用，那么当我将一个缓冲区绑定

浏览 2提问于2012-09-13得票数 3

回答已采纳

4回答

全局访问Ninject内核

asp.net-mvc、ninject

这个问题并不是特别与Ninject相关的。这更像是一个一般性的编码问题，但我在这里发布它，是为了防止在Ninject中可能有更好的方法来处理这个问题，而不是我试图做的事情。我想知道是否有可能从Global.asax中的实例全局访问Ninject标准内核。例如，没有与控制器接口的facade类，我想要开始一个依赖链，我的理解是我应该使用： _className =

浏览 2提问于2013-03-11得票数 20

2回答

nvidia GTS 450有多少个线程

cuda

亲爱的朋友:我想学习CUDA编程，我买了一辆Nvidia GTS 450 PCI_E车。它有192条短信，那么它有多少个线程。192个线程？或者192*512个线程？问候

浏览 2提问于2011-02-01得票数 0

回答已采纳

1回答

如何在cuda上创建可全局访问的变量？

c++、cuda、memory-pool

由于Cuda实际上是在两台计算机上操作，所以当您在设备上时指向主机的内存是无效的，这意味着如果它们有指针成员，就不能将结构(或对象)复制到设备上。整数是内存池内的偏移量。整数被包装在一个类中(重载"->“和"*")，使其看起来像一个指针。内存池对象管理一个连续的对象数组，这些对象可以很容易地传输到Cuda设备。池的内容在主

浏览 2提问于2012-10-08得票数 2

回答已采纳

5回答

在CUDA设备代码中使用std：：向量

cuda

问题是:库达内核中是否存在使用类“向量”的方法？int, std::allocator<int> > ::push_back") from a __device__/__global__ function not allowed

浏览 4提问于2012-04-29得票数 52

4回答

是否允许创建单个类的多个实例？

design-patterns、singleton

当我读到(关于单例设计模式)时，我感到很困惑：来源：设计模式-可重用面向对象软件的元素(1995) - Gamma，Helm，Johnson，Vl

浏览 0提问于2013-04-11得票数 0

回答已采纳

1回答

如何在PyCUDA中使用预处理符号？

python、cuda、pycuda

有一个用C语言编写的带有一些CUDA内核的程序，我需要调整这个程序，以便使用PyCUDA在python中运行。现在，在这个C代码中定义了一些全局变量，其中一些内核通过#ifdef访问这些变量。我想要做的是在python中定义这些全局变量，然后复制我的CUDA C内核代码并使用SourceModule方案运行它们(假设我很懒)。我应该使用某种特殊<

浏览 2提问于2013-12-30得票数 1

回答已采纳

1回答

全局内存和CUDA流

memory、cuda、cuda-streams

我正在从事CUDA的工作，我对全局内存和流CUDA有疑问。Aux[threadIdx.y] = 0;} 所以，如果我在不同的流GPU上运行这个内核。或者所有的流都有一个Aux变量是Aux全局变量？我在cuda指南里找不到这些信息。

浏览 3提问于2013-02-27得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云