GPU计算主机_GPU 计算主机_gpu云计算主机 - 腾讯云开发者社区

c++、time、cuda

我需要计算GPU运行时代码，以及总运行代码(主机和设备)。在我的代码中，我有两个gpu内核在运行，在主机for循环之间复制数据，下面的示例可以显示我的代码是什么样子的。 cuda event start //FIRST kernel code call <<...>> // cuda memory copy result back from device to host CudadeviceSyncronize() // copy host data to host array (CPU funtion loop) // cuda memory copy fr

浏览 4提问于2015-05-25得票数 0

1回答

Android studio 2.0版

android、android-studio

我的android studio版本更新到了2.0，当我创建avd时，没有“使用主机GPU”的选项，并且我得到了一个错误“禁用使用主机GPU”。帮帮我。

浏览 1提问于2016-04-21得票数 0

1回答

tensorflow是运行在GPU还是CPU上？(窗户)

tensorflow

我尝试了一段时间来安装tensorflow-gpu，并与CUDA有很多麻烦。首先，CUDA设置中的Visual集成总是给出一个错误，但是如果我在CUDA安装过程中忽略了Visual集成，安装就会正常工作。对于使用tensorflow-gpu来说，Studio集成是必须的吗？然后，我安装了CUDA 9.0的所有3个补丁，并将Cudnn文件放在文件夹中。接下来，我使用了我的环境变量并添加了这个路径(C:\Program \NVIDIA GPU计算工具包\CUDA\v9.0) 因此，当我打开命令提示符并导入tensorflow时，在所有教程中，我看到了关于这个主题的一些行，这些行是成功加载的吗？我

浏览 0提问于2018-06-21得票数 0

回答已采纳

1回答

用OpenCL和GPU进行排列/散列时要注意的事情？

opencl

我是OpenCL的新手，试图找出OpenCL和hashes的优缺点。例如，我有一个琐碎的散列函数： public static uint GetHash(string str) { uint s = 21; // seed foreach (char ch in str) s = (s + (uint)ch) * 10; return s; } (我知道这是个可怕的哈希，但这只是一个例子) 现在假设我希望计算出所有字符a-zA-Z0-9_的排列长度为50，例如： a b ... _ aa ab ... __ 显然，这是我需要计算的大量散列(63^50)，所以我决定使用

浏览 1提问于2013-10-26得票数 1

回答已采纳

1回答

Tensorflow急切模式下的绩效评价

python、tensorflow

在tensorflow关于的指南中，有一段代码如下： import time def measure(x, steps): # TensorFlow initializes a GPU the first time it's used, exclude from timing. tf.matmul(x, x) start = time.time() for i in range(steps): x = tf.matmul(x, x) _ = x.numpy() # Make sure to execute op and not just enq

浏览 2提问于2018-08-07得票数 0

回答已采纳

1回答

卤化物GPU调度器比CPU慢

halide

我已经写了一个简单的Halide代码来计算从0到n的数字的平方，然而它在GPU上比在CPU上多花22倍的时间。 #include"stdafx.h" #include "Halide.h" #include <stdio.h> using namespace Halide; #include "HalideRuntimeOpenCL.h" #define GPU_TILE 16 #define COMPUTE_SIZE 1024 Target find_gpu_target(); // Define some Vars to u

浏览 0提问于2019-11-21得票数 1

2回答

X11转发是如何工作的？

ssh、x11、gpu

X11转发是如何工作的？我想知道渲染图形的处理是在运行应用程序的主机结束时完成的，还是在显示图形界面的主机上完成的？我应该使用GPU密集型应用程序(游戏)-我应该在哪里安装GPU (服务器端/客户端)？当然，如果服务器正在运行CUDA / openCL应用程序，那么它将需要GPU，但是显示呢？这个问题在StackOverflow上结束了。这是一个指向我的链接，但我希望了解更多的底层协议和性能调整。

浏览 0提问于2012-11-03得票数 8

回答已采纳

2回答

比较CPU和GPU中内存范围的标准方法是什么？

cuda、gpu、equality、thrust

我必须连续范围(指针+大小)，一个在GPU和一个在CPU中，我想比较它们是否相等。比较这些范围的标准方法是什么？ my_cpu_type cpu; // cpu.data() returns double* my_gpu_type gpu; // gpu.data() returns thrust::cuda::pointer<double> thrust::equal(cpu.data(), cpu.data() + cpu.size(), gpu.data()); 提供非法的内存访问。我也试过 thrust::equal( thrust::cuda::par //

浏览 19提问于2022-03-17得票数 0

回答已采纳

1回答

如何对跳跃进行参数化

python、pytest

目前，我有一组测试，希望在主机上的GPU上执行测试。例如，如果机器有3个GPU，我想使用1个GPU、2个GPU和3个GPU来测试这个功能。我目前的方法(我知道这并不优雅或有效)是有8个测试，每个测试配置为使用从1到8个不等的大量GPU，如果主机没有所需的GPU数量，则每一个测试都将被跳过。在使用@pytest.mark.parametrize设置8个不同的值作为测试中的GPUs数量的情况下，是否可以只编写一个测试，并将其与跳过测试的工具结合起来，以根据机器的gpus跳过测试？提前感谢

浏览 4提问于2022-09-22得票数 1

回答已采纳

1回答

Keras:在没有GPU的主机上用CuDNNLSTM构建的加载模型

tensorflow、keras

我训练了一个使用CuDNNLSTM单元的keras模型，现在我希望将该模型加载到缺少GPU的主机设备上。但是，由于CuDNNLSTM单元需要一个GPU，加载过程就会爆炸，抛出：没有注册OpKernel来支持这些吸引人的Op 'CudnnRNN‘。有什么后门可以让我在没有GPU的主机上加载模型吗？任何建议都会很有帮助的！

浏览 0提问于2018-10-19得票数 2

回答已采纳

1回答

OpenCL并行调度

opencl、gpgpu

我在NVIDIA上使用了对OpenCL 2.0的测试版支持，目标是像1080ti这样的高端GPU。在我的计算管道中，有时我需要将工作分派给独立的图像处理，相对较小的图像。理论上，我认为这些图像应该能够在单个GPU上并行处理，因为单个图像的工作组数量不会使GPU的所有计算单元饱和。这在OpenCL中是可能的吗？这在OpenCL中有名字吗？如果可能的话，对一个设备使用多个队列是唯一的方法吗？或者驱动程序会查看"waitEventList“并决定哪些内核可以并行处理？我需要CL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE吗？

浏览 3提问于2017-09-16得票数 1

1回答

将主机中的参数平均后再发送到参数服务器

tensorflow

我正在编写代码，以便在一个集群中运行分布式同步培训，其中32台主机各有16个GPU。我读过本教程：和这个示例代码：两者似乎都建议每个GPU运行一个工作人员，并使用SyncReplicaOptimizer来运行同步培训。如果我这样做，在每一步之后，每个PS都会从32*16名工人那里接收参数子集的梯度，对吗？在将平均梯度发送到参数服务器之前，可以在每个主机中平均16个GPU的梯度吗？这样，每个PS只需要接收32组渐变，而不是32*16。如果有可能做到这一点，那么在如何做到这一点上有示例代码吗？

浏览 2提问于2016-10-25得票数 1

回答已采纳

1回答

CUDA异步内存复制-哪个硬件设备执行内存复制操作？

cuda

我一直在研究异步CUDA操作，并读到有一个内核执行(“计算”)队列和两个内存复制队列，一个用于主机到设备(H2D)，另一个用于设备到主机(D2H)。可以在这些队列中的每个队列中并发运行操作。如果我正确理解，那么在计算队列中可以同时执行多达16个内核。(32关于一些现代建筑。) 然而，在D2H和H2D队列中只能同时发生一个内存传输。如果两者同时使用，这总共是两个同时进行的内存传输，在两个不同的方向。假设我正确理解了这一切，我的问题是，是哪个设备“管理”数据的传输？进一步的读取表明GPU具有对主机(CPU)存储器(RAM)的直接存储器访问(DMA)。这意味着CUDA设备( GPU)包含一个管

浏览 0提问于2021-06-05得票数 0

1回答

如何使用GPU从GPU代码复制数据？

c++、cuda、gpgpu、dma

使用CUDA SDK 5.5，我可以用来复制数据：从主机：使用GPU-DMA，如果内存固定。如果内存未固定，memcpy();或将使用CPU核心从gpu：for() { dst[i] = src[i]; }或memcpy();到GPU内核从gpu:使用？如何在GPU代码的kernel-function中使用GPU复制数据？

浏览 2提问于2013-10-08得票数 5

回答已采纳

2回答

CUDA_VISIBLE_DEVICES与sge的结合

gridengine、graphics-processing-unit、cuda

使用sge和称为'gpu.q‘的资源复合体，可以对gpu设备(这些都是nvidia设备)进行资源管理。但是，在系统上有多个gpu设备(处于独占模式)，如果在同一个节点上分配了两个作业，用户就无法在正确的gpu上不透明地创建上下文。有人遇到这个问题了吗？我想以某种方式管理特定的gpu资源，并映射主机和设备id。 hostA -> gpu0:in_use hostA -> gpu1:free hostB -> gpu0:free hostB -> gpu1:in_use 等等。然后，根据资源请求，通过CUDA_VISIBLE_DEVICES变量显示每个主机上分配的

浏览 0提问于2012-04-05得票数 1

1回答

在计算能力5.0中，如何通过CPU和GPU同时访问托管内存？

cuda、gpu-managed-memory

由于在计算能力低于6.x的设备上同时访问托管内存是不可能的，是否有一种方法可以在GPU内核运行时通过CPU和GPU以计算能力5.0来模拟访问托管内存或使CPU访问托管内存。

浏览 0提问于2019-01-22得票数 0

回答已采纳

1回答

CUDA流性能

cuda、dot-product、cuda-streams

目前，我正在通过计算两个向量之间的点积来学习CUDA流。成分是一个核函数，它接受向量x和y，并返回大小等于块数的向量结果，其中每个块贡献自己的缩减和。我还有一个主机函数dot_gpu，它调用内核并将向量结果简化为最终的点乘积值。同步版本就是这样做的： // copy to device copy_to_device<double>(x_h, x_d, n); copy_to_device<double>(y_h, y_d, n); // kernel double result = dot_gpu(x_d, y_d, n, blockNum,

浏览 2提问于2016-11-12得票数 0

1回答

Nvidia visual studio Nsight CPU和GPU调试

debugging、visual-studio-2012、cuda、nvidia、remote-debugging

NVIDIA Nsight Visual Studio Edition似乎无法同时调试CPU (主机代码)和GPU (库达代码)。使用Nsight Eclipse (或CUDA )，这非常简单，例如，您可以从主机执行“插入”到CUDA内核。如何在中进行同样的操作？

浏览 1提问于2013-08-29得票数 4

回答已采纳

2回答

在WPF中显示CUDA处理过的图像

wpf、image-processing、cuda

我有一个WPF应用程序，它从照相机获取图像，处理这些图像，并显示它们。处理部分已经成为CPU的负担，所以我已经看过将这个处理移到GPU并对它们运行自定义CUDA内核。基本程序如下： 1)从摄像机获取图像2)将图像加载到GPU 3)调用CUDA内核处理图像4)显示处理后的图像 WPF到CUDA的控制策略是我想要弄清楚的。很自然，一旦图像被加载到GPU上，它就不必为了显示而被卸载。我读过OpenGL可以做到这一点，但是我真的需要学习OpenGL并将它包含在我的项目中才能快速显示一个CUDA处理过的图像吗？我理解(我认为)调用来自C#的CUDA内核的问题。我的计划是围绕我的CUDA调用构建一个非托

浏览 4提问于2014-03-06得票数 5

回答已采纳

1回答

TensorFlow设备上下文、流和上下文切换

tensorflow

在代码中，我注意到每个流都创建了一个。这样做的目的是让每个上下文都可以控制一个OpKernelContext，然后当需要执行各种流时，可以只切换上下文，将不同的数据/代码推送到GPU上，然后执行。各种流是否被注册为不同的设备(即，'/gpu:0‘和'/gpu:1')？根据，线程池设备没有上下文，但是如果我将上下文添加到ThreadPoolDevice中，它们是否最适合作为一种ThreadContext？

浏览 14提问于2016-09-14得票数 2

回答已采纳

2回答

在一个GPU上运行多个CUDA应用程序

cuda、gpu、gpgpu、nvidia

CUDA文档没有具体说明多少CUDA进程可以共享一个GPU。例如，如果我由同一用户启动多个CUDA程序，而系统中只安装了一块GPU卡，会有什么效果？它能保证执行的正确性吗？在这种情况下，GPU如何调度任务？

浏览 1提问于2015-07-27得票数 42

回答已采纳

1回答

GPU如何使用的元流解释

amazon-web-services、gpu、aws-batch、netflix-metaflow

目标了解GPU将如何在元流中使用。背景在中，有几个关于如何使用GPU的讨论。它看起来像@resources(GPU=2)负责GPU分配，但有一些讨论指出AWS EC2实例类型与GPU，如P或G实例，也是类型的AMI。据我理解，Metaflow使用AWS批处理，它使用ECS/Docker。然后，码头实例需要在码头容器()内的GPU驱动程序能够访问GPU。因此，不清楚元流如何管理GPU，以及使用GPU所需的先决条件、配置和编码是什么。问题我们是否需要使用在EC2实例(停靠主机)级别预配置GPU驱动程序的特定AMI？我们是否需要在GPU中使用特定的EC2类型(P3、P4、G

浏览 3提问于2020-07-07得票数 0

1回答

基于RDP的Windows服务器上的GPU加速

windows、rdp、windows-server-2019、gpu、windows-server-2022

我试图找出是否有可能使用一个GPU运行Windows，该GPU在所有RDP客户端之间共享，这样人们就可以在服务器上创建会话使用需要GPU加速的UI启动一些程序当程序保持运行并获得完全加速时，随后断开连接。稍后重新连接到会话。也许这是一个不寻常的用例，因为我能找到的大多数关于Windows和GPU的东西似乎都是关于虚拟化的，f.e。这里，甚至有人提到如果工作负载直接在物理Windows主机上运行，则不需要图形虚拟化；您的应用程序和服务已经可以访问Windows Server中本机支持的GPU功能和API 这可能表明这是可能的。我读过RemoteFX和GPU分区，f.e。这里，但它看

浏览 0提问于2022-04-06得票数 3

1回答

如何在多个GPU上同时运行OpenCL (2)？

multithreading、concurrency、kernel、opencl、multi-gpu

我有两个GPU，一个内核，一个上下文和两个命令队列(每个GPU一个)。我尝试在一个循环中运行它们，其中每个命令队列都会运行，然后我尝试了queue.finish()和queue.flush()，希望在GPU上同时运行工作。但实际发生的情况是，数据首先被发送到一个设备，GPU执行其工作，然后另一个GPU开始工作。它需要的时间是使用单个GPU的两倍。这不是我想要达到的目的！虽然我也将缓冲区读回到主机代码中，有人可能会认为这可能是第二个GPU等待第一个GPU的结果的问题。但我也在没有任何运气的情况下注释了结果的读数。还是老样子。 for (unsigned int iter = 0; iter

浏览 1提问于2016-10-14得票数 0

1回答

数据自动化系统设备的订购

tensorflow、cuda、pytorch

我看到了解决方案，但它没有完全回答我的问题；它也很老，所以我不知道它有多重要。对于GPU单元的顺序，我一直得到相互冲突的输出。其中有两个: Tesla K40和NVS315 (从未使用过的遗留设备)。当我运行deviceQuery时 Device 0: "Tesla K40m" ... Device PCI Domain ID / Bus ID / location ID: 0 / 4 / 0 Device 1: "NVS 315" ... Device PCI Domain ID / Bus ID / location ID: 0 / 3 / 0

浏览 0提问于2018-10-15得票数 1

回答已采纳

2回答

类似于Amazon Web Services集群GPU实例的私有云GPU虚拟化

amazon-web-services、cuda、cloud、gpgpu、openstack

我正在寻找支持动态基于云的NVIDIA GPU虚拟化的选项，类似于亚马逊网络服务为分配GPU的方式。我的项目是建立一个内部云。其中一个要求是能够将GPU分配给虚拟机/实例以进行服务器端CUDA处理。南加州大学似乎正在开发来支持这一点，但它还没有准备好。这正是我正在寻找的，如果它在OpenStack中具有完整的功能。似乎只支持将GPU分配给，这是严格意义上的远程桌面GPU虚拟化。如果我错了，VGX确实从虚拟机/实例启用了服务器端CUDA计算，请让我知道。

浏览 6提问于2013-01-25得票数 15

回答已采纳

2回答

C:使用任何GPU进行并行计算

c、parallel-processing、gpu

我最近写了一些软件，做了大量的计算。计算是按级别进行的，而对于每个级别，其内部的计算是独立的。也就是说，从逻辑上讲，我可以并行地运行它们，因为它们都不依赖于其他人的结果。我的问题是:是否有一个通用的C库，用于在GPU上进行并行的数学(矩阵)操作，它可以在所有平台(Windows/等等)上工作？当我说general -我指的是一些可以与任何现代GPU一起工作的库。

浏览 0提问于2015-06-11得票数 4

4回答

GPU上指针的大小与CPU上指针的大小

c、pointers、opencl、address-bus

我在设备端定义了一个结构。它在GPU和CPU上会有相同的大小吗？东道方： typedef struct { cl_float4* ptr; } my_struct_cpu; 设备侧： typedef struct { float4* ptr; } my_struct_gpu;

浏览 3提问于2015-03-27得票数 1

回答已采纳

1回答

如何将CPP应用程序与OpenCL代码集成

opencl

我正在Linux & CPP (使用Eclipse )上进行开发。我是OpenCL (GPU编程)的新手，我想在GPU上执行我的一些代码(用openCL重写一些函数并在GPU上运行它们)。我有点困惑--如果我要编写一些代码(.cl文件)，我如何从我的cpp应用程序中调用它们？我没有看到任何这种需要的例子。

浏览 1提问于2015-06-24得票数 0

回答已采纳

2回答

将数据从GPU复制到CPU

c++-amp

我正在尝试计算一个矩阵使用C++放大器。我使用一个宽度和高度为3000x3000的数组，并将计算过程重复20000次： //_height=_width=3000 extent<2> ext(_height,_width); array<int, 2> GPU_main(ext,gpuDevice.default_view); array<int, 2> GPU_res(ext,gpuDevice.default_view); copy(_main, GPU_main); array_view<int,2

浏览 0提问于2012-12-19得票数 4

回答已采纳

1回答

GPU与CPU加速

cuda、gpu、cpu

希望你们能在这个话题上帮我：参考这个，对于一些简单的图像处理任务，只有很小的加速比，例如，当调整图像大小时，最大加速比约为2倍(CPU程序的总时间与GPU程序的总时间)。他们使用PC (处理器: Intel(R) Core(TM) i7-6700 CPU @3.40GHz (8 CPU )、16 GPU内存、DirectX11和NVIDIA GeForce GTX 970和1664 CUDA-Core @1050 MHz)运行两种代码:一种使用CPU，另一种使用GPU。为什么有这么低的加速速度？没有给出代码，所以可能有限的并行能力可能是原因。假设你有一个很好的并行化，你的CPU有n个核，

浏览 1提问于2022-04-04得票数 -1

1回答

GPU计算导致驱动程序错误“停止响应”

matlab、cuda、parallel-processing、nvidia、matlab-gpu

我在这里有一个无聊的脚本，我正在MATLAB R2013b中执行： clear all; n = 2000; times = 50; i = 0; tCPU = tic; disp 'CPU::' A = rand(n, n); B = rand(n, n); disp '::Go' for i = 0:times CPU = A * B; end tCPU = toc(tCPU); tGPU = tic; disp 'GPU::' A = gpuArray(A); B = gpuArray(B); disp '::Go

浏览 7提问于2014-02-23得票数 2

回答已采纳

1回答

Tensorflow不使用GPU

python、tensorflow

我目前正在尝试训练一个聊天机器人，更具体地说，。但是当我开始训练聊天机器人时，它使用了我100%的CPU和大约10%的GPU。有没有人知道为什么。我已经安装了tensorflow-gpu并确保我有正确的CUDA和cuDNN版本。我还确保我没有安装基本的tensorflow pip包。我也有我的GPU最新的Nvidia驱动程序。我还试着卸载和重新安装我的所有驱动程序，CUDA，cuDNN，tensorflow-gpu及其所有依赖项和python本身-这些都没有工作。我可以创建一个python脚本并包含with tf.device('/gpu:0');，并使用它创建

浏览 0提问于2019-05-23得票数 3

1回答

如何通过ssh发送我自己的自定义函数

bash、ssh-tunnel

我的目标是做以下工作： 1)检查每个GPU在特定服务器上使用了多少内存。我用(nvidia-smi --query-gpu=memory.free --format=csv)来完成这个任务。 2)寻找最大空闲内存的GPU。我用my_cmd()来完成这个任务。它适用于我目前登录的远程服务器。 3)如果我登录的远程服务器上的最大空闲内存小于1000 MiB，则将SSH连接到集群中的另一个GPU服务器中，以找到可用的最大空闲内存。根据to_check，这些服务器都有标签。我现在的问题是：当scriptuse被赋予cd命令时，下面的代码可以工作，等等。当scriptuse被赋予mycmd时，下面

浏览 3提问于2017-07-26得票数 1

回答已采纳

1回答

在OpenCL中处理一小部分GPU线程产生的附加数据的最佳方法是什么？

gpu、opencl

我对OpenCL非常陌生，有以下问题：我有一个大数组(6 * 1,000,000浮点数)。对于数组的每个元素，我需要做一个计算。基本算法在多达16个GPU (Tesla K80)上工作得很好： 1.)我为每个GPU设备创建了数组的缓冲区对象和结果的缓冲区对象，并将其写入每个GPU内存。 2.)然后，为每个数组元素生成一个线程，并在GPU上的内核中执行计算。 3.)结果被写入与全局线程id对应的结果数组元素。 4.)主机读取结果缓冲区。我现在必须扩展这个算法。一些数组元素(10-100)实际上需要额外的计算，从而产生额外的结果(另12个浮点数)。这是一些伪码。 __kernel void

浏览 0提问于2019-06-05得票数 2

回答已采纳

1回答

了解HPC Linpack (CUDA版)

cuda

我想知道在运行HPC Linpack (CUDA版本)时，CPU扮演什么角色。它们正在从其他集群节点接收数据并执行CPU-GPU数据交换，不是吗？所以他们的工作不会影响性能，对吗？

浏览 0提问于2014-06-18得票数 0

1回答

如何在大训练集和小内存上训练神经网络

machine-learning、gpu、neural-network、gpgpu、training-data

我编写了自己的神经网络库，使用gpu计算进行反向传播。想让它通用，我不需要检查训练集是否适合gpu内存。当训练集太大，不适合gpu内存时，如何训练神经网络？我假设它适合主机的RAM。我必须在第一个部件上进行训练迭代，然后在设备上释放它，然后将第二个部分发送到设备上，然后对其进行训练，等等……然后对梯度结果进行总结。当我必须把所有的数据都推到PCIe总线上时，是不是太慢了？你有更好的主意吗？

浏览 2提问于2014-01-17得票数 1

3回答

Windows多任务处理破坏了OpenCL性能

c++、windows、multithreading、qt、opencl

我写Qt应用的想法很简单:有几个支持OpenCL的设备，每个设备都有自己的控制线程，负责准备数据、执行OpenCL内核和处理结果。OpenCL代码实际上是比特币挖掘内核(目前它是，但这无关紧要)。当使用2个GPU时，一切正常。当我使用GPU和CPU时，出现了一个问题。CPU以合理的速度工作，但GPU速度减慢到零性能。在Linux下没有这样的问题。在Windows下，poclbm的行为是相同的:当启动多个实例时( GPU为1，CPU为1)，GPU性能为0。我不确定我应该发布代码的哪一部分，所以它将是有帮助的。我只能提一下，这个线程是一个QThread的子线程，用一个繁忙的循环while(

浏览 4提问于2012-03-02得票数 2

回答已采纳

3回答

将GPU添加到现有VM实例Google Compute Engine

google-compute-engine

我已经创建了一个使用谷歌计算引擎的深度学习(cs231n)只有CPU的实例。我已经升级账号，GPU配额现在是1。但是，按照文档中的说明将GPU添加到现有实例不起作用。文档建议编辑VM，但是，在停止VM之后，没有用于编辑VM实例的按钮/选项。我已经在StackOverflow上看到了推荐与文档相同的答案，感觉文档与界面不一致。我想知道是否有人能够编辑VM并将GPU添加到现有VM实例中？

浏览 3提问于2018-12-29得票数 2

3回答

不同全局函数之间的CUDA和共享变量

cuda、global-variables

只是对数据自动化系统的一些怀疑。也许他们似乎有些愚蠢的问题，我为此道歉。如果我在GPU上声明一个变量(例如，包含N个元素的数组α，cudaMalloc((void**)&alpha, N * sizeof(double)))，并在不释放内存的情况下在全局函数中分配它的值，那么这个变量应该可以用于其他连续的全局函数，对吗？此外，计算GPU上的标量变量并使其在GPU上的多个全局函数之间共享是可行的(或可取的)，还是最好每次将其作为CPU的参数传递？感谢您的关注。

浏览 4提问于2012-12-29得票数 1

回答已采纳

2回答

如何从远程NSight会话捕获控制台输出？

cuda、console、remote-debugging、nvidia、nsight

我有一组CUDA应用程序，它们都通过cout写入控制台。我有一台装有VS和NSight插件的主机和一台装有NSight服务的目标机器。然而，当我执行控制台应用程序时，它实际上是在目标机器上运行的(字面意思是弹出一个控制台)。所以这里有一个问题:我如何让控制台显示在主机上，并且只在目标上执行GPU的东西？这有可能吗？谢谢!

浏览 4提问于2013-06-14得票数 0

1回答

OpenCL:并行执行来自不同程序的内核

opencl

我有两个想要在图形处理器上并行执行的OpenCL应用程序。假设第一个应用程序的名称是A1.c，其内核命名为a1.cl。内核a1.cl需要600个CUDA核心才能执行。假设第二个应用程序是A2.c，其内核命名为a2.cl。我想在GPU的剩余400个CUDA内核上执行程序A2.c的内核a2.cl。其目的是通过增加GPU的设备利用率，与逐个执行两个程序相比，减少两个同时执行的程序的执行时间。但是，当我同时启动A1.c和A2.c时，它们各自的内核a1.cl和a2.cl没有并行执行。我的问题是如何在GPU上并行执行两个不同程序的内核。注:我使用的是Nvidia GTX 760 GPU。

浏览 2提问于2018-10-24得票数 1

1回答

GPU与远程主机之间的RDMA

cuda、gpu、nvidia、infiniband、rdma

可以在GPU和远程主机之间执行RDMA操作吗？ Nvidia网站上的在线文档只提到在GPU之间进行RDMA，而没有提到在GPU-主机之间执行RDMA的可能性。注意事项：我可以访问一个配备了K80 GPU和Mellanox的集群。

浏览 5提问于2017-05-25得票数 3

回答已采纳

1回答

Cuda ORB描述符Opencv

c++、opencv、image-processing

我正在尝试用OpenCV在CUDA上做一个特征匹配算法。我正在使用ORB特性。我遇到的主要问题是我能够很好地计算ORB关键点，但是描述符总是空的。我试了所有的方法，但都没有成功。我尝试了opencv的最新版本(3.4.0)和3.2.0版本。这是我的代码的简化版本： cv::Ptr<cv::cuda::ORB> orb_gpu = cv::cuda::ORB::create(5000); std::vector<cv::KeyPoint> keypoints; cv::cuda::GpuMat descriptors; cv::cuda::GpuMat img_gpu(c

浏览 11提问于2018-01-19得票数 2

回答已采纳

2回答

相当于在VM运行Linux的情况下查看眼镜？

virtual-machine、kvm、gpu、gpu-passthrough

看玻璃是一个开放源码的应用程序，它允许使用配置了通通GPU的KVM，而无需附加物理监视器、键盘或鼠标。在查找眼镜术语中，主机软件是运行在VM来宾(使用GPU的VM )中的外观玻璃的术语。客户端软件是在Linux主机上运行的部分的术语，显示呈现的帧。 “外观眼镜”主机目前仅限于Windows，它涵盖了主要的用例:在Windows中运行只使用Windows的GPU重型软件，在Linux主机上显示结果。我有一个稍微不同的用例:我将我的增强器无头GPU从Linux主机传递到Linux来宾。对于基于OpenCL或CUDA等的GPU计算，它的工作原理很好。我还希望能够在Linux来宾上运行3D软件，并

浏览 0提问于2021-02-04得票数 1

回答已采纳

1回答

如何通过ssh发送自定义数据集？

python、ssh、pytorch、generative-adversarial-network

我必须在远程GPU上训练一个GAN (用Python编写)，我只能通过ssh从我的PC上访问，但是我有一个自定义数据集(我不能从任何地方下载)，它存储在没有GPU的PC中。我对Google进行了非常深入的搜索，并尝试使用scp命令(这是我找到的唯一解决方案)，但数据集似乎太大，无法在可接受的时间内(13 in大小)发送。为了训练网络，我如何在相当长的时间内用GPU将数据集传输到PC上，因为除了ssh连接之外，我无法访问PC？此外，一旦培训完成，我如何检索state_dict()并将其存储到我的PC上？

浏览 2提问于2020-05-11得票数 0

回答已采纳

2回答

使用new和双指针在全局内核中创建类对象

cuda

我有以下全局内核： __global__ void pdegpu(PDE_ParabolicD1_Num_GPU **pdes) { PDE_ParabolicD1_Num_GPU *loc; loc = new PDE_ParabolicD1_Num_GPU(); loc->Setup(); delete loc; //above code was just an example to show that new and delete work fine *pdes = new PDE_ParabolicD1_Num_GPU()

浏览 1提问于2013-02-27得票数 0

1回答

Cuda编译过程是如何进行的？

compilation、cuda、nvcc、ptx

根据NVIDIAs编程指南： CUDA应用程序的源文件由传统的C++主机代码和GPU设备功能混合而成。CUDA编译轨迹将设备功能与主机代码分离，使用专有的NVIDIA编译器和汇编程序编译设备功能，使用可用的C++主机编译器编译主机代码，然后将编译后的GPU函数作为加脂二进制图像嵌入主机对象文件中。在链接阶段，添加了特定的CUDA运行库，以支持远程SPMD过程调用和提供显式GPU操作，如GPU内存缓冲区的分配和主机-GPU数据传输。使用专有的NVIDIA编译器和汇编程序意味着什么？，什么是PTX和cubin文件？这些都是在哪一步进行的呢？我已经搜索了很多关于这个概念的内容，但是，我想简单

浏览 14提问于2022-02-02得票数 0

2回答

在Android演播室中使用主机GPU意味着什么？

android、performance、android-emulator

当我为模拟器配置我的AVD时，我遇到了以下术语--“使用主机GPU”。我是否应该检查它?这会加速我的仿真器还是它会慢下来。急切地等待答案。任何帮助都是非常感谢的。

浏览 0提问于2015-05-30得票数 1

回答已采纳

1回答

将自定义数据类型/类发送到GPU

cuda、gpgpu

GPGPU/Cuda的所有教程和介绍材料通常使用平面数组，但是我尝试移植一段代码，它使用的对象比数组要复杂一些。我有一个三维的std：：向量，我想在GPU上得到它的数据。在GPU上有哪些策略来实现这一点？我现在能想到一个：将向量在主机上的数据复制到一个更简单的结构中，比如数组。然而，这似乎是浪费的，因为1)我必须复制数据和，然后发送到GPU；2)我必须分配一个三维数组，其维数是任何向量中元素计数的最大值，例如使用2D向量。想象{{1，2，3，4，.1000}，{1}}，在主机内存中，这些是大约1001个已分配的项，而如果我要将其复制到一个二维数组中，则必须分配1000*10

浏览 0提问于2014-04-30得票数 1

回答已采纳