如何有效地将数据从2D主机阵列(带填充)复制到1D设备阵列，并删除CUDA中的原始填充？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我在主机上有一个带填充的2D列主数组，例如： |2 5 8| |x x x|我想将数据作为一维数组复制到设备内存中：或 {1, 2, 3, 4, 5,6, 7, 8,

浏览 4提问于2020-05-07得票数 0

回答已采纳

1回答

cuda:如何将主机数据复制到3D cuda阵列并将其复制回来

、、

"cuda c编程指南“给出了使用cuda数组的例子。这些示例仅限于2D。因此，在2D cuda阵列的情况下，我将简单地执行以下操作，将主机数据复制到设备内存：&

浏览 0提问于2012-06-29得票数 2

回答已采纳

4回答

使用相同constant内存的CUDA主机和设备

我有使用常量内存的设备/主机功能。它在设备上运行正常，但在主机上，该内存似乎仍未初始化。如何同时初始化设备和主机内存常量？

浏览 2提问于2012-02-27得票数 9

回答已采纳

1回答

是否可以将cudaMemcpy与源和dest作为不同的类型一起使用？

、

我使用的是Tesla，这是我第一次在CPU内存而不是GPU内存上运行！因此，我认为可以通过将所有整数转换为短整型(我所有的值都小于255)来减少主机内存的大小。但是，我希望我的设备内存使用整数，因为内存访问更快。那么有没有办法将我的主机内存(简而言之)复制到我的设备全局内存( int)中呢？

浏览 0提问于2012-01-09得票数 0

回答已采纳

3回答

使用cuda-gdb检查全局设备内存

我正在尝试使用cuda-gdb来检查全局设备内存。即使在cudaMemcpy之后，这些值似乎也都是零。但是，在内核中，共享内存中的值是好的。有什么想法吗？cuda-gdb会检查全局设备内存吗？看起来主机内存和设备共享内存都很好。谢谢。

浏览 2提问于2011-07-14得票数 7

1回答

Bitmap.getPixel ()处理一维数组

、、、

但是为什么会有一维阵列呢？我知道这是个问题，但我不明白。谢谢

浏览 0提问于2017-11-21得票数 1

回答已采纳

2回答

cudaMallocPitch和cudaMemcpy2D

、

当将C++ 2D数组转换为CUDA一维数组时，我有一个错误。让我展示一下我的源代码。如何正确使用cudaMallocPitch()和cudaMemcpy2D()？

浏览 0提问于2016-03-03得票数 3

回答已采纳

4回答

检测用户是否绘制了整个屏幕

我让用户在我的app.The应用程序中进行绘画，一旦整个屏幕都画好了，屏幕上就会显示一些选项。有没有一种方法可以检测用户是否绘制了整个屏幕？

浏览 0提问于2011-03-29得票数 0

回答已采纳

2回答

为什么NVENC示例同时使用cuMemcpyHtoD和cuMemcpy2D复制YUV数据？

、

我正在学习 API.The SDK提供一个名为"NvEncoderCudaInterop“.There的采样代码，它是将YUV平面数组从CPU复制到GPU缓冲区的代码块。这是代码： CUDA_MEMCPY2D copyParam;copyParam.dstMemoryType, yuv[1], width*height / 4

浏览 6提问于2015-10-08得票数 3

回答已采纳

3回答

将非托管System.IntPtr字节向量复制到2D设备字节数组的GPU行中

、、

我使用的是C#和CUDAfy.net (是的，这个问题在带指针的直C语言中更容易解决，但考虑到更大的系统，我有理由使用这种方法)。每隔33.3毫秒，它就会在循环缓冲区中填充一个插槽，并返回一个指向*byte的非托管1D矢量的*byte；循环缓冲区有15个插槽。在GPU设备(Tesla K40)上，我希望有一个全局2D数组，它被组织成一个密集的2D

浏览 4提问于2014-12-25得票数 4

回答已采纳

2回答

CUDA 3D到线性索引映射(螺距)

、、

我有三维数据，我正在使用数据自动化系统进行研究.(维度为N*N )中，我通过以下操作访问了特定元素：j = blockIdx.y*BLOCK_Y + threadIdx.y;现在我希望将代码扩展到3-D。k = blockIdx.z*BLOCK_Z + threadIdx.z; 但是，我如何把这三者结合起来，得到线性指数呢？到底什么是音调，

浏览 10提问于2015-02-27得票数 0

1回答

cudaMemCpy2D崩溃

、、

我正在尝试在cuda.For中实现Sauvola二值化这个我已经在主机中读取了2d数组中的图像，并使用pitch.After为设备中的2D数组分配内存分配内存我正在尝试使用cudaMemcpy2D将主机2D数组复制到设备2d数组，它编译得很好，但在运行时它在这里崩溃。2.使用

浏览 0提问于2012-08-28得票数 0

回答已采纳

1回答

如何在CUDA设备上更改稀疏矩阵的子矩阵

、、、

将整个矩阵结构从系统存储器复制到设备存储器可能成为相当大的性能瓶颈，因为在给定时间只需要改变矩阵条目的一小部分。我希望能够做的是有一种方法来仅更新特定的子集/子矩阵，而不是在每次需要更改矩阵时将整个矩阵结构从系统内存重新复制到设备内存。我天真地认为，为了实现这一点，我应该在主机端有一个整数数组或向量，例如updateInds，它将跟踪val中已更改<em

浏览 0提问于2015-06-23得票数 0

1回答

如何从包含设备成员变量的类内部调用CUDA内核

、

我想使用CUDA 5.0链接来编写可重用的CUDA对象。我已经设置了这个简单的测试，但是我的内核无声地失败了(运行时没有错误或异常，输出的是垃圾)。我的简单测试(如下)将一个整数数组分配给CUDA设备内存。CUDA内核应该用顺序条目(0,1,2，....,9)填充数组。设备阵列被复制到CPU内存并输出到控制台。

浏览 2提问于2013-04-02得票数 0

回答已采纳

1回答

我试图将文件(任何文件作为exe，apk)转换为灰度图像。我已经使用下面的代码准备了文件的二进制位。然而，我被困在分组8位来表示我的图像中的一个像素，所以每个像素是从0-255。研究表明，恶意软件可以通过将其转换为灰度图像进行分类，并应用CNN模型进行分类。print("hex: %s, decimal: %s, binary: %s" % (hexadecimal, decimal, binary))我已经写了下面，在这里我确定了图像<e

浏览 1提问于2020-02-12得票数 1

回答已采纳

1回答

Cuda Memcpy设备到主机:未指明的错误启动失败

这是我一直在做的一个简单的测试程序(用来帮助调试我在运行求和函数上的工作)，我似乎找不到哪里出了问题。程序只是在一个小列表上调用我的运行求和函数，并试图打印出数据。造成所有麻烦的那一行就是被注释掉的那行。It the cudaMemcpy(DeviceToHost)。当这一行是代码的一部分时，我得到的错误是： CUDA error at: student_func.cu:136 unspecifie

浏览 2提问于2013-07-07得票数 1

1回答

CUDA OPENGL互操作性:缓慢映射

、、、

我的应用程序将从openGL获取渲染结果(深度图和渲染的2D图像信息)到CUDA进行处理。另一种方法是使用openGL<>cuda国际警察组织。第一步是在openGL中创建一个缓冲区，然后将图像/深度信息传递给该

浏览 5提问于2013-04-12得票数 3

1回答

开普勒上更快的平行缩减

、、

我只是一个CUDA初学者，尝试在我的程序中使用，但我没有得到结果，下面是我正在做的事情的函数，输出是0，我想知道我的错误是什么？#ifndef __CUDACC__ #endif #include <cuda_runtime.h>#include <iostream&

浏览 4提问于2017-02-20得票数 0

回答已采纳

2回答

CUDA 2D数组-使用元素

、、

我正在学习cuda，并设法在那里获得了一个2D数组，并返回了一个双精度的2D数组，但有一些小问题。现在，例如，我想将所有值设置为所有值的250，但是我似乎无法通过第一行。我似乎不能正确地循环。我怀疑它是块/线程的数量还是代码本身。下面是我的完整代码：#include <vector> #define THETA 1

浏览 0提问于2018-07-30得票数 0

3回答