腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
cuda
内核
上
创建
全局
可
访问
的
类
实例
c++
、
object
、
cuda
我想运行一个
Cuda
内核
,使一些进程并行化。我
在
cudaMemcpy
的
功能上遇到了一个问题,它似乎只产生对象
的
浅层副本。由于cudaMemcpy
的
这种行为,我无法正确地操作我复制到设备内存中
的
对象。因此,我试图通过将
类
成员分别复制到设备
上
并在设备
上
构建对象来解决问题。 现在我
的
实际问题是,我只需要设备
上
类
的
一个
实例
,应该在<em
浏览 22
提问于2021-11-19
得票数 0
2
回答
作为
类
成员
的
库达纹理?
cuda
、
textures
、
cuda-arrays
试图定义具有每个
实例
纹理
的
类
。是的,该类
的
实例
数量将很小。为了解决
CUDA
纹理必须是
全局
变量这一限制,我尝试了以下方法: 不起作用。纹理不能作为参数传递(也不能通过指针或引用传递),并且
内核
不识别数组名,
浏览 3
提问于2014-03-01
得票数 1
1
回答
将指向设备__constant__内存
的
指针传递到
内核
,而不是直接使用
pointers
、
memory
、
cuda
、
constants
我正在使用
CUDA
5.0和一个GTX 670
在
ubuntu 12.10
上
使用gcc 4.6,我还编写了一个名为Grid
的
类
: cloudKernel<<< numBlocks, numThreads >>>(someDate, gridOnDeviceGlobal); 这很简单,但是
内核
必须从<
浏览 1
提问于2013-02-28
得票数 0
1
回答
作为
类
的
成员函数
的
CUDA
内核
c++
、
windows
、
cuda
我使用
的
是
CUDA
5.0和计算能力2.1卡。}; {} 如果不是,那么解决方案是
创建
一个包装器函数,它是
类
的
成员,并在内部调用
内核
?如果是,那么它会像普通
的
私有函数一样
访问
私有属性
浏览 0
提问于2012-12-07
得票数 7
回答已采纳
1
回答
加速神经网络计算
python
、
gpu
、
numba
、
acceleration
我正在努力完成Nvidia
的
“
CUDA
Python加速计算基础”课程,并完成了重构一些代码
的
简单版本
的
任务,这些代码执行在神经网络中
创建
隐藏层所需
的
工作:fromnumba import
cuda
, vectorize weights =
cuda</em
浏览 19
提问于2022-09-19
得票数 1
2
回答
向OpenCL
内核
通知多个内存对象
的
正确方式?
opencl
、
gpgpu
在
我
的
OpenCL程序中,我最终将得到每个
内核
都需要能够
访问
的
60+
全局
内存缓冲区。要让每个
内核
知道这些缓冲区
的
位置,推荐
的
方法是什么?缓冲区本身在应用程序
的
整个生命周期中都是稳定
的
--也就是说,我们将在应用程序启动时分配缓冲区,调用多个
内核
,然后只
在
应用程序端释放缓冲区。但是,当
内核
对它们进行读/写时,它们
的
内容可能
浏览 1
提问于2012-06-16
得票数 7
回答已采纳
1
回答
数据自动化系统中
的
全球设备变量:不良实践?
cuda
我正在设计一个拥有大量
CUDA
内核
的
库来执行并行计算。所有
内核
都将作用于一个公共对象,比如使用C++样式对象定义
的
计算网格。计算域不一定需要从主机端
访问
,因此
在
设备端
创建
计算域并将其保持在当前状态是有意义
的
。我想知道以下几点是否被认为是“良好做法”: __device__域*D 然后,我使用
浏览 2
提问于2015-07-23
得票数 0
回答已采纳
2
回答
提高2d图像“跟踪”
CUDA
内核
性能
的
技巧?
performance
、
image-processing
、
optimization
、
cuda
我
在
一个具有1.3计算能力
的
设备
上
运行它(我需要在特斯拉C1060
上
使用它,尽管我现在正在GTX260
上
测试它,GTX260具有相同
的
计算能力),我有几个类似下面的
内核
。我一个接一个地将几个数组复制到设备
的
全局
内存中,因为我需要
访问
它们来计算所有长度为SUM
的
数组。
在
我
的
例子中,我不确定如何使用合并和共享内存,甚至不知道使用不同
的
数据部分多次调用
浏览 1
提问于2013-07-03
得票数 4
2
回答
CUDA
的
响应时间问题为什么cpu比gpu快?
cuda
嗨,我有一个时间响应
的
问题,我
在
GPU上得到了比CPU更长
的
响应时间,使用
的
算法是矩阵乘法算法 使用下面的函数: // Start timers cudaEvent_t timer1, timer2;
上
的
代码: float Mult_gpu(float* hostPtr, float* hostPtr2, float* hostPtr3, int size, int Ncols, int Nrows
上
的
代码 float Mul
浏览 29
提问于2020-03-31
得票数 1
回答已采纳
2
回答
如何在多个
内核
启动之间同步
全局
内存?
cuda
}但是为什么在下一个
内核
启动时
全局
内存写入没有完成……这是因为设备重叠还是因为它总是这样?我想,当我们一个接一个地启动
浏览 0
提问于2011-07-01
得票数 0
1
回答
在
CUDA
中将非POD类型作为__global__函数参数传递
cuda
我知道一般情况下,非POD类型不能作为参数传递给
CUDA
内核
启动。但在我能找到解释
的
地方,我指的是一个可靠
的
来源,比如一本书,一本数据自动化系统手册,等等。
浏览 0
提问于2013-11-16
得票数 1
回答已采纳
1
回答
Cuda
虚拟
类
c++
、
cuda
、
virtual-functions
我想在
cuda
内核
中执行一些虚拟方法,但我不想在同一个
内核
中
创建
对象,而是希望
在
主机上
创建
它并将其复制到gpu内存中。那么推荐
的
方法是什么呢?或者这项功能根本不受支持?我
的
想法是首先运行一
浏览 2
提问于2012-10-03
得票数 6
回答已采纳
1
回答
CUDA
流、纹理绑定和异步memcpy
asynchronous
、
concurrency
、
cuda
、
textures
我
在
CUDA
上
写了一些信号处理,最近在优化它方面取得了巨大
的
进步。通过使用一维纹理和调整我
的
访问
模式,我设法获得了10×性能提升。(我以前尝试过事务对齐预取从
全局
到共享内存,但后来发生
的
非统一
访问
模式破坏了翘曲→共享缓存库关联(我认为))。 所以现在我面临
的
问题是,
CUDA
的
纹理和绑定是如何与异步memcpy交互
的
。,既然只有一个纹理引用,那么当我将一个缓冲区绑定
浏览 2
提问于2012-09-13
得票数 3
回答已采纳
4
回答
全局
访问
Ninject
内核
asp.net-mvc
、
ninject
这个问题并不是特别与Ninject相关
的
。这更像是一个一般性
的
编码问题,但我在这里发布它,是为了防止
在
Ninject中可能有更好
的
方法来处理这个问题,而不是我试图做
的
事情。我想知道是否有可能从Global.asax中
的
实例
全局
访问
Ninject标准
内核
。例如,没有与控制器接口
的
facade
类
,我想要开始一个依赖链,我
的
理解是我应该使用: _className =
浏览 2
提问于2013-03-11
得票数 20
2
回答
nvidia GTS 450有多少个线程
cuda
亲爱
的
朋友:我想学习
CUDA
编程,我买了一辆Nvidia GTS 450 PCI_E车。它有192条短信,那么它有多少个线程。192个线程?或者192*512个线程?问候
浏览 2
提问于2011-02-01
得票数 0
回答已采纳
1
回答
如何在
cuda
上
创建
可
全局
访问
的
变量?
c++
、
cuda
、
memory-pool
由于
Cuda
实际
上
是
在
两台计算机上操作,所以当您在设备
上
时指向主机
的
内存是无效
的
,这意味着如果它们有指针成员,就不能将结构(或对象)复制到设备
上
。整数是内存池内
的
偏移量。整数被包装在一个
类
中(重载"->“和"*"),使其看起来像一个指针。 内存池对象管理一个连续
的
对象数组,这些对象可以很容易地传输到
Cuda
设备。池
的
内容
在
主
浏览 2
提问于2012-10-08
得票数 2
回答已采纳
5
回答
在
CUDA
设备代码中使用std::向量
cuda
问题是:库达
内核
中是否存在使用
类
“向量”
的
方法?int, std::allocator<int> > ::push_back") from a __device__/__global__ function not allowed
浏览 4
提问于2012-04-29
得票数 52
4
回答
是否允许
创建
单个
类
的
多个
实例
?
design-patterns
、
singleton
当我读到(关于单例设计模式)时,我感到很困惑:来源: 设计模式-
可
重用面向对象软件
的
元素(1995) - Gamma,Helm,Johnson,Vl
浏览 0
提问于2013-04-11
得票数 0
回答已采纳
1
回答
如何在PyCUDA中使用预处理符号?
python
、
cuda
、
pycuda
有一个用C语言编写
的
带有一些
CUDA
内核
的
程序,我需要调整这个程序,以便使用PyCUDA
在
python中运行。现在,在这个C代码中定义了一些
全局
变量,其中一些
内核
通过#ifdef
访问
这些变量。我想要做
的
是
在
python中定义这些
全局
变量,然后复制我
的
CUDA
C
内核
代码并使用SourceModule方案运行它们(假设我很懒)。我应该使用某种特殊<
浏览 2
提问于2013-12-30
得票数 1
回答已采纳
1
回答
全局
内存和
CUDA
流
memory
、
cuda
、
cuda-streams
我正在从事
CUDA
的
工作,我对
全局
内存和流
CUDA
有疑问。Aux[threadIdx.y] = 0;} 所以,如果我
在
不同
的
流GPU
上
运行这个
内核
。或者所有的流都有一个Aux变量是Aux
全局
变量?我
在
cuda
指南里找不到这些信息。
浏览 3
提问于2013-02-27
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python实现单例模式的五种写法
如何在Julia编程中实现GPU加速
从头开始进行CUDA编程:原子指令和互斥锁
单例模式的7种实现方式及反射,序列化破坏单例模式怎样防止?
一个实例教你怎么在Python多线程下保持单列模式
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券