腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何将
CUDA
函数
替
换为
单线程
CPU
函数
?
c++
、
cuda
我正在尝试调试我的
cuda
程序,但我看起来非常不切实际,因为它是多线程的,因为你必须选择warps,如果你想同时调试
cpu
和gpu,也有两个调试器。此外,我还搜索了
单线程
调试模式,但它似乎并不存在,于是我决定在调试配置中通过添加#ifdef _DEBUG行来修改
函数
。uint3 threadIdx; uint3 blockDim; #include "
cuda
_runtime.h
浏览 50
提问于2020-01-28
得票数 0
3
回答
如何将
像素格式为AV_PIX_FMT_
CUDA
的FFmpeg AVFrame转
换为
像素格式为AV_PIX_FMT_RGB的新AVFrame
c++
、
ffmpeg
、
h.264
、
cuvid
为了节省
CPU
,我用编解码器h264_cuvid来做解码部分。我的FFmpeg 3.2是在启用硬件加速的情况下编译的。
函数
avcodec_decode_video2提供的帧具有像素格式AV_PIX_FMT_
CUDA
。我需要使用AV_PIX_FMT_RGB将这些帧转
换为
新帧。不幸的是,我不能使用熟知的
函数
sws_getContext和sws_scale进行转换,因为像素格式AV_PIX_FMT_
CUDA
不受支持。如果我尝试使用swscale,我会得到错误: “不支持
cuda</em
浏览 10
提问于2017-11-01
得票数 12
2
回答
CUDA
.NET中的上下文迁移
c#
、
cuda.net
我目前使用的是GASS的
CUDA
.NET库。我需要在一个
CPU
线程中初始化
cuda
数组(实际上是cublas向量,但这无关紧要),并在其他
CPU
线程中使用它们。但是保存所有初始化数组和加载
函数
的
CUDA
上下文只能附加到一个
CPU
线程。 cubl
浏览 7
提问于2010-04-26
得票数 4
1
回答
无法计算torch.
cuda
.FloatTensor的点积
pytorch
我使用GPU计算了神经网络和torch.
cuda
.FloatTensor (两者都存储在GPU中)输出的点积,但得到了一个错误: TypeError: dot received an invalid combinationof arguments - got (torch.
cuda
.FloatTensor) but expected (torch.FloatTensor tensor).
浏览 2
提问于2017-07-03
得票数 1
1
回答
cuda
算法结构
c++
、
c
、
algorithm
、
cuda
我想了解使用
CUDA
在GPU上执行以下操作的一般方法。DoStuffB(inputMatrix,a,b,c,outputMatrix) }} DoStuffA和DoStuffB是简单的可并行化
函数
(例如,执行矩阵行操作),
CUDA
示例中有很多这样的
函数
。我想要做的是知道
如何将
主算法"DoStuff“放到图形处理器上,然后在需要的时候调用DoStuffA和DoStuffB (它们是并行执行的)。也就是说,外部循环部分是
单线程
的,但内部调
浏览 0
提问于2011-08-17
得票数 2
回答已采纳
2
回答
这种与数据自动化系统的加速是预期的吗?
c++
、
performance
、
matrix
、
cuda
我使用的
cpu
是Intel(R) Xeon(R)
CPU
E5-2680 v2 at 2.8 GHz,我在越来越大的矩阵上运行与cblas_dgemm的矩阵乘法。我正在使用的gpu是一个Nvidia K40,有15个多处理器,翘曲大小为32,以及480
CUDA
核(广告称为2880
CUDA
核)。我向您展示了K40比
单线程
CPU
矩阵点产品更快地使用8000%,这比我预期的要快得多,所以我怀疑有什么地方不对劲。注意:我正在用100迭代进行测试并对运行进行平均,但我只计算对各自*gemm<e
浏览 0
提问于2015-09-15
得票数 1
回答已采纳
1
回答
库达:什么是流抽象的?
cuda
在
cuda
C编程指南中,流是非常抽象地定义的:按照代码发出的顺序执行
cuda
操作。 我对Nvidia GPU中指令执行方式的理解是:当内核启动时,这些块被分发到设备中的SMs中。
浏览 0
提问于2018-10-17
得票数 3
1
回答
g++的不同链接方式-- gcc
gcc
、
g++
、
dynamic-linking
我将C++代码转
换为
C,现在我也在尝试更改Makefile。我有这样的经历: g++ -fPIC -o bin/linux/release/gpu_md5
cuda
_md5.c
cuda
_md5_
cpu
.c obj/release/
cuda
_md5_gpu.cu.o/common/lib64/linux -L/opt/
cuda
/NVIDIA_
CUDA
_SDK
浏览 2
提问于2012-10-14
得票数 1
回答已采纳
2
回答
Pytorch张量的截断SVD分解
python
、
scikit-learn
、
pytorch
、
svd
为了计算奇异值分解,我将Pytorch
Cuda
张量的输入传递给中央处理器,并使用scikit-learn中的TruncatedSVD进行截断,然后将结果传送回图形处理器。(n_components=input_size/2) svd=self.svd.fit_transform(input.
cpu
()) svd_tensor=svd_tensor.
cuda
浏览 101
提问于2019-09-20
得票数 2
回答已采纳
1
回答
如何将
分配给设备功能的内存复制回主内存
cuda
我有一个包含主机
函数
和设备
函数
执行()的
CUDA
程序。在主机
函数
中,我分配一个全局内存输出,然后将其传递给设备
函数
,并用于存储在设备
函数
中分配的全局内存的地址。我想访问主机
函数
中内核中分配的内存。= cudaSuccess) printf("
CUDA
error a: %s\n", cudaGetErrorString(err));
浏览 5
提问于2012-10-24
得票数 1
回答已采纳
1
回答
NUMBA中
CPU
和GPU
函数
的数组分配
python
、
numpy
、
numba
我正在尝试用numba编写一些
函数
,这些
函数
可以用于不同的目标(
cpu
、
cuda
、并行)。我遇到的问题是为
cuda
设备代码分配一个新的数组是不同的,例如:对
CPU
功能进行类似的操作,例如有没有一种聪明的方法来处理这个问题,而不必编写单独的
函数
呢?
浏览 2
提问于2017-10-21
得票数 0
回答已采纳
1
回答
torch::col2im在哪里?
c++
、
pytorch
、
namespaces
最近,当我查看py手电的源代码时,我发现fld.h(第18行)中使用了torch::col2im。namespace nn { return torch::col2im( output_size, dilation,
浏览 8
提问于2022-06-07
得票数 0
1
回答
CPU
是否等待设备完成其内核执行...?
cuda
程序的结构如下 QUESTION - WILL
CPU
WAIT FOR DEVICE TO LET IT FINISH KERNEL EXECUTION (CONSIDERING
浏览 2
提问于2012-09-28
得票数 17
回答已采纳
1
回答
TensorFlow处理器和
CUDA
代码共享
c++
、
machine-learning
、
tensorflow
、
cuda
、
deep-learning
我正在为TensorFlow编写一个具有共享自定义
函数
代码的C++和
CUDA
。通常,当
CPU
和
CUDA
实现之间的代码共享时,如果针对
CUDA
进行编译,则需要定义一个宏来将__device__说明符插入到
函数
签名中。在TensorFlow中有没有以这种方式共享代码的内置方法?如何定义可以在
CPU
和GPU上运行的实用
函数
(通常是内联的)?
浏览 10
提问于2017-08-04
得票数 1
回答已采纳
3
回答
#ifdef / #ifndef和#endif
c++
、
cuda
我有一段必须同时在
CPU
和
CUDA
上运行的代码-GPU和另外一段单独在
CPU
上运行的代码。#define ENABLE_
CUDA
是我用来在整个应用程序中启用
CUDA
代码的工具。. # define ENABEL_
CUDA
is the preprocessor directive to turn ON/OFF
CUDA
code.
CPU
and GPU code --This piece of code has to be executed
浏览 0
提问于2013-03-29
得票数 0
1
回答
是否可以调用间接调用另一个
cuda
.jit
函数
的
cuda
.jit
函数
?
python
、
cuda
、
jit
、
numba
我需要能够调用GPU
函数
,而GPU
函数
本身又间接调用另一个GPU
函数
:import numpy as np @
cuda
.jit[0]:#
CPU
function def euclidean_distance_
cpu
(diffsdiffs_sum = np.sum(diffs
浏览 0
提问于2020-06-22
得票数 2
2
回答
Model.to(设备)和model=model.to(设备)有什么区别?
python
、
pytorch
假设模型最初存储在
CPU
上,然后我想将其移动到GPU0,那么我可以这样做:model = model.to(device)model.to
浏览 5
提问于2020-01-02
得票数 13
1
回答
如何查找pytorch的c++源代码
c++
、
pytorch
在这样一个大型项目中是否有任何系统的方法来定位一个
函数
(在本例中是bmm)?
浏览 3
提问于2020-05-26
得票数 3
回答已采纳
1
回答
将CudaNdarraySharedVariable转
换为
TensorVariable
python
、
machine-learning
、
neural-network
、
gpu
、
theano
我正在尝试将pylearn2 GPU模型转
换为
与
CPU
兼容的版本,以便在远程服务器上进行预测--我
如何将
CudaNdarraySharedVariable转
换为
TensorVariable,以避免在无GPU计算机上调用
cuda
代码时出错?实验性的theano标志unpickle_gpu_to_
cpu
似乎留下了一些CudaNdarraySharedVariable(特别是model.layers[n].transformer._W)。
浏览 0
提问于2014-07-14
得票数 1
回答已采纳
1
回答
pytorch: variable.long()能保证64位吗?
type-conversion
、
pytorch
、
tensor
在pytorch中,我有一个可能是IntTensor或
cuda
.IntTensor的变量。需要将其更改为保留
cpu
/gpu的64位。如果不是,
如何将
变量转
换为
64位,为所有实现保留
cpu
/gpu?
浏览 10
提问于2017-12-30
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从头开始进行CUDA编程:线程间协作的常见技术
如何在Julia编程中实现GPU加速
不同的AI视频推理场景下,如何构建通用高效的抽帧工具?
从头开始了解PyTorch的简单实现
从头开始进行CUDA编程:原子指令和互斥锁
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券