gpu运算主机_GPU云运算主机_gpu并行运算主机 - 腾讯云开发者社区

cuda、gpu、gpgpu、matrix-multiplication

我需要在GPU上使用CUDA实现大矩阵的矩阵乘法。每个矩阵的大小都比GPU内存大。因此，我认为我需要一个算法来有效地实现这一点。我在网上找了找，但什么也找不到。谁能给我这样的算法的名称或链接。谢谢

浏览 0提问于2013-01-28得票数 8

回答已采纳

1回答

是否有可能改变.NET数组分配方法？

c#、.net、memory-management、cuda

我在.NET中通过P/Invoke使用CUDA。在CUDA中，它们提供了一种特殊的内存分配方法，它可以在GPU上分配内存，同时可以从主机(当然，从.NET的角度访问非托管内存)访问它们。这被称为CUDA的统一内存，它模糊了CPU和GPU内存之间的板。那么，是否可以将默认的.NET数组内存分配方法更改为自定义的非托管内存分配？在该数组中，我只需要存储非常简单的基本类型，如int、double。例如，在CUDA C++中，它们覆盖new操作符，以使该类同时从CPU和GPU中看到： class Managed { public: void *operator new(size_t len)

浏览 1提问于2015-09-14得票数 1

回答已采纳

2回答

使用Sun Grid引擎(SGE)调度GPU资源

gpu、gpgpu、sungridengine、multiple-gpu

我们有一组机器，每台都有4个GPU。每个作业应该能够要求1-4个GPU。这里有一个问题:我想让SGE告诉每个工作，它应该采取的GPU(s)。与CPU不同的是，如果一次只有一个进程访问GPU，则GPU的工作效果最好。所以我想： Job #1 GPU: 0, 1, 3 Job #2 GPU: 2 Job #4 wait until 1-4 GPUs are avaliable 我遇到的问题是，SGE将允许我在每个节点上创建一个包含4个单元的GPU资源，但是它不会显式地告诉GPU要使用的作业(只会得到1或3，或者其他什么)。我想要创建4资源(gpu0, gpu1, gpu2, gpu3)，但

浏览 6提问于2012-05-11得票数 4

回答已采纳

2回答

(Py)OpenCL同时修改所有线程的值

python、opencl、pyopencl

简单地说，我有以下内核，它修改了C[0]的值，其中C是一个只有一个元素的数组。 __kernel void sigma(__global float *A, __global float *B, __global float *C) { int i = get_global_id(0); printf("Adding %.2f + %.2f", A[i], B[i]); C[0] += A[i] + B[i]; } 问题是，最后，C[0]有最后完成的线程的值，特别是在本例中，我得到了以下内容 Adding 1.00 + 0.00 Adding 2.00

浏览 6提问于2020-11-16得票数 0

回答已采纳

1回答

OpenCL中零拷贝的访问路径

opencl

我有点搞不懂零拷贝到底是怎么回事。 1-想确认以下内容对应于opencl中的零拷贝。 ....................... . . . . . . . . CPU . . SYSTEM . . . RAM . c3 X . . <=====> . ...|................... PCI-E / / | / / c2 |X

浏览 1提问于2012-10-07得票数 7

1回答

GPU与远程主机之间的RDMA

cuda、gpu、nvidia、infiniband、rdma

可以在GPU和远程主机之间执行RDMA操作吗？ Nvidia网站上的在线文档只提到在GPU之间进行RDMA，而没有提到在GPU-主机之间执行RDMA的可能性。注意事项：我可以访问一个配备了K80 GPU和Mellanox的集群。

浏览 5提问于2017-05-25得票数 3

回答已采纳

1回答

Cuda ORB描述符Opencv

c++、opencv、image-processing

我正在尝试用OpenCV在CUDA上做一个特征匹配算法。我正在使用ORB特性。我遇到的主要问题是我能够很好地计算ORB关键点，但是描述符总是空的。我试了所有的方法，但都没有成功。我尝试了opencv的最新版本(3.4.0)和3.2.0版本。这是我的代码的简化版本： cv::Ptr<cv::cuda::ORB> orb_gpu = cv::cuda::ORB::create(5000); std::vector<cv::KeyPoint> keypoints; cv::cuda::GpuMat descriptors; cv::cuda::GpuMat img_gpu(c

浏览 11提问于2018-01-19得票数 2

回答已采纳

2回答

相当于在VM运行Linux的情况下查看眼镜？

virtual-machine、kvm、gpu、gpu-passthrough

看玻璃是一个开放源码的应用程序，它允许使用配置了通通GPU的KVM，而无需附加物理监视器、键盘或鼠标。在查找眼镜术语中，主机软件是运行在VM来宾(使用GPU的VM )中的外观玻璃的术语。客户端软件是在Linux主机上运行的部分的术语，显示呈现的帧。 “外观眼镜”主机目前仅限于Windows，它涵盖了主要的用例:在Windows中运行只使用Windows的GPU重型软件，在Linux主机上显示结果。我有一个稍微不同的用例:我将我的增强器无头GPU从Linux主机传递到Linux来宾。对于基于OpenCL或CUDA等的GPU计算，它的工作原理很好。我还希望能够在Linux来宾上运行3D软件，并

浏览 0提问于2021-02-04得票数 1

回答已采纳

2回答

Matlab计算中G2 =G .* G与G2 =G*G的区别

matlab

在下面的代码中，G2 = G .* G和G2 = G * G有什么区别？为什么我得到的第一个代码GPU负载100%，第二个我得到GPU负载和内存控制器负载传感器，两者都在100%上的gpu？ X = rand(5000, 'double'); G = gpuArray(X); classUnderlying(G) % Returns 'single' for m = 1:5000 G2 = G .* G .* G .* G; % Performed on GPU end whos G2

浏览 2提问于2014-01-16得票数 0

2回答

使用new和双指针在全局内核中创建类对象

cuda

我有以下全局内核： __global__ void pdegpu(PDE_ParabolicD1_Num_GPU **pdes) { PDE_ParabolicD1_Num_GPU *loc; loc = new PDE_ParabolicD1_Num_GPU(); loc->Setup(); delete loc; //above code was just an example to show that new and delete work fine *pdes = new PDE_ParabolicD1_Num_GPU()

浏览 1提问于2013-02-27得票数 0

1回答

Cuda编译过程是如何进行的？

compilation、cuda、nvcc、ptx

根据NVIDIAs编程指南： CUDA应用程序的源文件由传统的C++主机代码和GPU设备功能混合而成。CUDA编译轨迹将设备功能与主机代码分离，使用专有的NVIDIA编译器和汇编程序编译设备功能，使用可用的C++主机编译器编译主机代码，然后将编译后的GPU函数作为加脂二进制图像嵌入主机对象文件中。在链接阶段，添加了特定的CUDA运行库，以支持远程SPMD过程调用和提供显式GPU操作，如GPU内存缓冲区的分配和主机-GPU数据传输。使用专有的NVIDIA编译器和汇编程序意味着什么？，什么是PTX和cubin文件？这些都是在哪一步进行的呢？我已经搜索了很多关于这个概念的内容，但是，我想简单

浏览 14提问于2022-02-02得票数 0

1回答

CUDA程序设计中设备和主机执行时间的计算

c++、time、cuda

我需要计算GPU运行时代码，以及总运行代码(主机和设备)。在我的代码中，我有两个gpu内核在运行，在主机for循环之间复制数据，下面的示例可以显示我的代码是什么样子的。 cuda event start //FIRST kernel code call <<...>> // cuda memory copy result back from device to host CudadeviceSyncronize() // copy host data to host array (CPU funtion loop) // cuda memory copy fr

浏览 4提问于2015-05-25得票数 0

1回答

库达: cudaMallocManaged处理出口吗？

c++、cuda

如果(在C++ +CUDA中) cudaMallocManaged()用于在主机和GPU内存中分配共享数组，而程序遇到(例如在主机代码中)一个exit(1)，这是否会永久地在GPU中留下悬空内存？我猜答案是不基于的，但我不确定GPU是否有某种回收机制。

浏览 2提问于2018-10-04得票数 0

回答已采纳

1回答

MPI中的投票操作

c++、ubuntu、mpi、openmpi

在Open MPI 4.0.3中，如何实现CUDA中的投票操作？每台主机都知道一个布尔值(无论是GPU主机还是CPU主机)。当i-th主机是a[i]==true主机时，我需要在每个包含GPU的主机上获取一个布尔数组。每个主机上的阵列必须相同。语言是C++ (C语言也可以)，操作系统是Ubuntu20.04。

浏览 19提问于2021-11-12得票数 0

1回答

带浮点数的和约简核的精度

cuda

我正在创建一个调用Nvidia的求和减少内核(reduction6)的例程，但是当我比较CPU和GPU之间的结果时，会得到一个随着向量大小增加而增加的错误，所以： CPU和GPU的减少都是浮点数 Size: 1024 (Blocks : 1, Threads : 512) Reduction on CPU: 508.1255188 Reduction on GPU: 508.1254883 Error: 6.0059137e-06 Size: 16384 (Blocks : 8, Threads : 1024) Reduction on CPU: 4971.3193359

浏览 2提问于2013-02-28得票数 2

1回答

当现代gpu内存耗尽时，如何利用磁盘上的交换空间？

cuda、operating-system、virtualization、swapfile

后Pascal 可以分配比GPU内存更多的内存，这将自动在GPU内存和主机内存之间交换。那么，如果GPU内存和主机内存耗尽怎么办？如何使用磁盘上的交换空间？虚拟内存交换空间在cudaMallocManaged情况下似乎不起作用。下面是我做这个实验的方法：创建交换空间：dd if=/dev/zero of=./swapfile bs=1G count=16、mkswap和swapon 创建主机内存占用率，烧毁99%的主机内存。 for (i = 0; i < 8000; i++) malloc(1<<20); 用cudaMalloc创建GPU内存占

浏览 4提问于2022-10-29得票数 1

回答已采纳

2回答

在设备上分配CUDA变量之前，为什么需要在主机上声明CUDA变量

cuda

我刚刚开始尝试重新学习CUDA，并遇到了一些我不完全理解的代码。 // declare GPU memory pointers float * d_in; float * d_out; // allocate GPU memory cudaMalloc((void**) &d_in, ARRAY_BYTES); cudaMalloc((void**) &d_out, ARRAY_BYTES); 当GPU内存指针被声明时，它们会在主机上分配内存。cudaMalloc调用丢弃了d_in和d_out是指向浮动的指针的信息。我想不出为什么cudaMalloc需要知道主机内存d_in

浏览 6提问于2017-03-27得票数 1

回答已采纳

2回答

CUDA_VISIBLE_DEVICES与sge的结合

gridengine、graphics-processing-unit、cuda

使用sge和称为'gpu.q‘的资源复合体，可以对gpu设备(这些都是nvidia设备)进行资源管理。但是，在系统上有多个gpu设备(处于独占模式)，如果在同一个节点上分配了两个作业，用户就无法在正确的gpu上不透明地创建上下文。有人遇到这个问题了吗？我想以某种方式管理特定的gpu资源，并映射主机和设备id。 hostA -> gpu0:in_use hostA -> gpu1:free hostB -> gpu0:free hostB -> gpu1:in_use 等等。然后，根据资源请求，通过CUDA_VISIBLE_DEVICES变量显示每个主机上分配的

浏览 0提问于2012-04-05得票数 1

1回答

带有ArrayFire的多个主机线程

python、gpgpu、arrayfire

对于如何在ArrayFire中使用多个主机线程，我有一个新的问题。我们目前有一个高度并行的CPU专用代码，使用Open和mpi4py并行化.每个CPU线程执行大型矩阵乘法，通常与多个线程同时相乘。我们希望通过使用ArrayFire在单个GPU上执行矩阵乘法来提高性能。我试图弄清楚是否可以让多个CPU主机线程向GPU发送矩阵乘法作业，并让GPU同时执行这些乘法操作。或者，每个CPU主机线程必须等到GPU空闲时才向GPU发送乘法作业吗？我很难找到答案，因为我不太精通GPU计算语言。我的印象是某些GPU支持并发内核执行，但我无法确定我们的GPU (Radeon 10)是否支持。任何关于如何使用

浏览 3提问于2018-01-11得票数 2

回答已采纳

2回答

比较CPU和GPU中内存范围的标准方法是什么？

cuda、gpu、equality、thrust

我必须连续范围(指针+大小)，一个在GPU和一个在CPU中，我想比较它们是否相等。比较这些范围的标准方法是什么？ my_cpu_type cpu; // cpu.data() returns double* my_gpu_type gpu; // gpu.data() returns thrust::cuda::pointer<double> thrust::equal(cpu.data(), cpu.data() + cpu.size(), gpu.data()); 提供非法的内存访问。我也试过 thrust::equal( thrust::cuda::par //

浏览 19提问于2022-03-17得票数 0

回答已采纳

1回答

在多个GPU上启动异步内存复制接口

c++、cuda、multi-gpu

我想对主机上的数据数组进行分割&复制到多个gpus的设备内存中。另外，我想同时执行所有这些复制操作。为此，我使用cudaMemcpyAsync，我在每个GPU的私有流中启动它。这里是我正在做的事情(代码中的怀疑以注释开始?？) #define SIZE 1000 #define GPUCOUNT 2 int* hostData = nullptr; int *devData[GPUCOUNT]; cudaStream_t stream[GPUCOUNT]; // Create one stream per GPU for ( int i=0; i != GPUCOUNT ; +

浏览 2提问于2015-01-13得票数 1

回答已采纳

1回答

Android studio 2.0版

android、android-studio

我的android studio版本更新到了2.0，当我创建avd时，没有“使用主机GPU”的选项，并且我得到了一个错误“禁用使用主机GPU”。帮帮我。

浏览 1提问于2016-04-21得票数 0

4回答

GPU从CPU读取还是CPU写入到GPU？

cuda、opencl、gpu

我是并行编程的初学者。我有一个问题，可能看起来很愚蠢，但当我在谷歌上搜索它时，我没有得到一个明确的答案。在GPU计算中，有一个设备，即GPU和主机，即CPU。我写了一个简单的hello world程序，它将在gpu上分配一些内存，将两个参数(例如src[]和dest[])传递给内核，将src字符串(即Hello world )复制到dest字符串，并将dest字符串从gpu获取到主机。字符串"src“是由GPU读取还是由CPU写入GPU？另外，当我们从GPU取回字符串时，是GPU写入CPU还是CPU从GPU读取？在来回传输数据时，有四种可能: 1. CPU到GPU - CPU写入

浏览 6提问于2012-07-03得票数 7

1回答

GPU系统内存映射

architecture、io、hardware、gpu、computer-architecture

如何为GPU访问映射系统内存(RAM)？我很清楚cpu的虚拟内存是如何工作的，但不确定当GPU访问GPU映射的系统内存(主机)时，它将如何工作。基本上是关于如何将数据从系统内存复制到主机内存，反之亦然。你能提供参考文章支持的解释吗？

浏览 1提问于2012-07-06得票数 15

回答已采纳

1回答

卤化物GPU调度器比CPU慢

halide

我已经写了一个简单的Halide代码来计算从0到n的数字的平方，然而它在GPU上比在CPU上多花22倍的时间。 #include"stdafx.h" #include "Halide.h" #include <stdio.h> using namespace Halide; #include "HalideRuntimeOpenCL.h" #define GPU_TILE 16 #define COMPUTE_SIZE 1024 Target find_gpu_target(); // Define some Vars to u

浏览 0提问于2019-11-21得票数 1

1回答

不使用GPU的Android虚拟管理器

android、gpu、cpu、virtual-device-manager

规格： I5 3500k HD 7870 AMD 我尝试在Eclipse中使用仿真器，但是即使使用我的i5 3500 K，它也非常缓慢。我发现它只使用一个核心。所以，我所做的就是选中“使用主机GPU”的复选框，希望使用我的GPU的马力。但是当我检查MSI燃烧器时，我的GPU使用率是0%。我的一个CPU核心仍然使用95%以上。它也有同样的表现。为什么它不使用我的GPU后，检查已使用的主机GPU。

浏览 0提问于2013-08-06得票数 0

回答已采纳

2回答

是否可以同时安装tensorflow的CPU和GPU版本？

docker、tensorflow

我正在使用nvidia-docker从一个码头容器访问GPU。然而，并不是所有的机器都有CPU，当CPU不可用时，我想自动回到CPU版本。我是否需要构建单独的接口映像--一个用于CPU，另一个用于GPU --还是可以安装tensorflow和tensorflow-gpu，并根据是否可用GPU选择正确的版本？

浏览 2提问于2017-11-01得票数 0

回答已采纳

1回答

为什么clEnequeMapBuffer不能映射到原始指针、OpenCL、Caffe

opencl、caffe

假设CPU指针(Cpu_ptr_)已经存在，然后我为gpu(cl_gpu_mem_)创建了一个缓冲区。问题是，当我将gpu buffer映射到cpu指针( mapped_ptr )时，mapped_ptr不等于原始指针( cpu_ptr_)，这导致CHECK_EQ(mapped_ptr，cpu_ptr_)引发错误。 cl_gpu_mem_ = clCreateBuffer(ctx.handle().get(), CL_MEM_READ_WRITE | CL_MEM_USE_HOST_PTR,

浏览 18提问于2016-09-10得票数 1

回答已采纳

1回答

如何对跳跃进行参数化

python、pytest

目前，我有一组测试，希望在主机上的GPU上执行测试。例如，如果机器有3个GPU，我想使用1个GPU、2个GPU和3个GPU来测试这个功能。我目前的方法(我知道这并不优雅或有效)是有8个测试，每个测试配置为使用从1到8个不等的大量GPU，如果主机没有所需的GPU数量，则每一个测试都将被跳过。在使用@pytest.mark.parametrize设置8个不同的值作为测试中的GPUs数量的情况下，是否可以只编写一个测试，并将其与跳过测试的工具结合起来，以根据机器的gpus跳过测试？提前感谢

浏览 4提问于2022-09-22得票数 1

回答已采纳

1回答

在我终止GPU之后，Google平台上的GPU实例会得到维护吗？

google-cloud-platform

从Google平台上的官方文档来看，GPU实例偶尔会得到维护： GPU实例必须终止主机维护事件，但可以自动重新启动。这些维护事件通常每周发生一次，但在必要时会更频繁地发生。您必须配置工作负载，以干净地处理这些维护事件。具体来说，像机器学习和高性能计算(HPC)这样长期运行的工作负载必须处理主机维护事件的中断。了解如何处理GPU实例上的主机维护事件。此外，根据，您可以在实例关闭前一小时从google获得维护警报。 curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H &

浏览 3提问于2020-08-24得票数 0

回答已采纳

1回答

为什么我的pcl cuda代码在CPU而不是GPU上运行？

cmake、gpu、ros、point-cloud-library

我有一段使用pcl/gpu命名空间的代码： pcl::gpu::Octree::PointCloud clusterCloud; clusterCloud.upload(cloud_filtered->points); pcl::gpu::Octree::Ptr octree_device (new pcl::gpu::Octree); octree_device->setCloud(clusterCloud); octree_device->build(); /*tree->setCloud (clusterCloud);*/ // Create the cl

浏览 29提问于2019-02-15得票数 0

1回答

Tensorflow急切模式下的绩效评价

python、tensorflow

在tensorflow关于的指南中，有一段代码如下： import time def measure(x, steps): # TensorFlow initializes a GPU the first time it's used, exclude from timing. tf.matmul(x, x) start = time.time() for i in range(steps): x = tf.matmul(x, x) _ = x.numpy() # Make sure to execute op and not just enq

浏览 2提问于2018-08-07得票数 0

回答已采纳

1回答

Tensorflow:在pb模型中使用tensorflow.contrib.memory_stats.MaxBytesInUse

python、tensorflow、memory

我正在尝试获取tensorflow模型的内存使用情况，正在从冻结的pb文件中加载模型： import tensorflow as tf def load_graph_def(model_filepath): # Expects frozen graph in .pb format with tf.gfile.GFile(model_filepath, "rb") as f: graph_def = tf.GraphDef() graph_def.ParseFromString(f.read()) return graph

浏览 0提问于2019-11-10得票数 3

1回答

Keras:在没有GPU的主机上用CuDNNLSTM构建的加载模型

tensorflow、keras

我训练了一个使用CuDNNLSTM单元的keras模型，现在我希望将该模型加载到缺少GPU的主机设备上。但是，由于CuDNNLSTM单元需要一个GPU，加载过程就会爆炸，抛出：没有注册OpKernel来支持这些吸引人的Op 'CudnnRNN‘。有什么后门可以让我在没有GPU的主机上加载模型吗？任何建议都会很有帮助的！

浏览 0提问于2018-10-19得票数 2

回答已采纳

1回答

tensorflow是运行在GPU还是CPU上？(窗户)

tensorflow

我尝试了一段时间来安装tensorflow-gpu，并与CUDA有很多麻烦。首先，CUDA设置中的Visual集成总是给出一个错误，但是如果我在CUDA安装过程中忽略了Visual集成，安装就会正常工作。对于使用tensorflow-gpu来说，Studio集成是必须的吗？然后，我安装了CUDA 9.0的所有3个补丁，并将Cudnn文件放在文件夹中。接下来，我使用了我的环境变量并添加了这个路径(C:\Program \NVIDIA GPU计算工具包\CUDA\v9.0) 因此，当我打开命令提示符并导入tensorflow时，在所有教程中，我看到了关于这个主题的一些行，这些行是成功加载的吗？我

浏览 0提问于2018-06-21得票数 0

回答已采纳

1回答

如何安装nvidia/gpu操作员？

kubernetes、nvidia、kubespray

我得到以下错误，建立在与kubespray。 helm安装--等等--生成名为nvidia/gpu的操作员 Error: INSTALLATION FAILED: rendered manifests contain a resource that already exists. Unable to continue with install: CustomResourceDefinition "nodefeaturerules.nfd.k8s-sigs.io" in namespace "" exists and cannot be imported into

浏览 26提问于2022-08-22得票数 -1

1回答

OpenCl clEnqueueMapBuffer无法正常工作？

opencl

据我所知，您可以使用clEnqueueMapBuffer来访问内存对象。您可以将设备上的内存对象映射到主机上的内存区域，而不使用读/写操作。我写了一个非常简单的代码来测试它。这段代码发送'X‘到图形处理器，内核将它加1，所以我们应该得到'Y’，但我没有。似乎clEnqueueUnmapMemObject没有将存储在图形处理器内存中的结果复制到主机上的缓冲区中！这是我的代码： #include <iostream> #include <CL\cl.h> using namespace std; #pragma warning(disable : 4996)

浏览 76提问于2016-09-13得票数 0

1回答

在一个拥有2个gpu的NVIDIA主机上，两个远程用户如何在SLURM下通过srun命令使用一个gpu？

gpu、nvidia、slurm

我有一个带有2个GPU的NVIDIA主机，有两个不同的远程用户需要在该主机上使用GPU。当每个任务都由SLURM管理的srun执行其任务时，其中一个将立即释放GPU资源，而对于另一个则处于等待资源的队列中。但是有两个GPU。为什么不是每个人都有GPU？我已经尝试过几种替代方案，它们都在参数中，但似乎在使用SRUN时，在交互形式下，负责执行任务的人在完成任务之前拥有整个机器领域。

浏览 20提问于2022-11-22得票数 0

1回答

CUDA内核中的访问结构成员

cuda

我有个结构 struct packet { int src_ip; int dest_ip; int src_port; int dest_port; int protocol; }; cuda内核如下所示： __global__ void GPU(struct packet * packets,int * gpu_action) { int i; i = (int) packets[6]->src_ip; } 主要职能如下： int main () { int * gpu_action; struct pack

浏览 1提问于2013-09-08得票数 0

1回答

主机与客户端共享GPU

nvidia、kvm、qemu、gpu、gpu-passthrough

有没有办法让主机和客人使用单一的GPU而不需要任何付费软件(vGPU)？如果是这样的话，奖励积分：动态分配GPU资源为AMD和Intel GPUS工作我有一个nVidia图形处理器，一个Linux主机和一个Windows来宾。也许是https://github.com/jamesstringerparsec/Easy-GPU-PV的Linux替代品

浏览 0提问于2023-04-07得票数 1

1回答

GPU与决定论

gpgpu、deterministic、direct3d11、directcompute

我在考虑把一些数学运算卸载到GPU上。由于我已经在使用D3D11，所以我会使用计算机着色器来完成这项工作。但是问题是，无论用户有什么GPU，对于相同的输入，我都需要相同的结果。(只要求它支持计算着色器4.0)。那么，浮点数学在GPU上是确定性的吗？如果没有，GPU支持整数运算吗？

浏览 3提问于2014-02-24得票数 3

回答已采纳

1回答

gpu::BFMatcher_GPU和BFMatcher给出了不同的结果

gpu、brute-force、surf

我在VS10上使用带有Cuda 7.0的OpenCv 2.4.10 在我的CPU项目中，找到关键点并像这样匹配； detector = new cv::SURF(150,3); descriptorExtractor = cv::DescriptorExtractor::create("SURF"); detector->detect(gry0,keypoints0); descriptorExtractor->compute(gry0, keypoints0, descriptor0); detector->detect(gry1,keypoints1

浏览 2提问于2015-07-05得票数 0

1回答

VirtualBox上用于Ubuntu16.04客户端的虚拟GPU

virtualbox、virtualization、performance、gpu

假设主机操作系统有GPU，有人能告诉我使用VirtualBox运行的Ubuntu16.04客户机是否能够通过虚拟化使用GPU吗？我读到GPU虚拟化只对QEMU有用，但我听说VirtualBox是基于(部分？)在QEMU上，我会看到性能的好处吗？另外，主机操作系统是什么关系到吗？

浏览 0提问于2016-04-22得票数 -1

3回答

关于Cuda 4.0和统一内存模型的问题

sdk、cuda、gpu、nvidia、memory-model

Nvidia似乎在吹捧Cuda 4.0允许程序员在CPU和GPU之间使用统一的内存模型。这不会取代在GPU和CPU中手动管理内存以获得最佳性能的需求，但它是否允许更容易的实现，这些实现可以经过测试、验证，然后进行优化(手动管理GPU和CPU内存)？我想听到一些评论或意见:)

浏览 2提问于2011-03-01得票数 2

回答已采纳

1回答

我可以使用RDMA通过无限带加载/存储访问从GPU2核心到GPU1-RAM在不同的PCIe总线？

cuda、gpgpu、multi-gpu、infiniband、rdma

如前所述：我可以从GPU0-Core访问同一个PCIe总线上的GPU1-RAM：装载/储存 cudaMemcpy() 它被命名为"NVIDIA GPUDirect v2 Peer (P2P)在同一PCIe总线上的GPU通信“(2011年)：我可以通过Infiniband使用RDMA在不同的PCIe总线上将GPU2-RAM复制到GPU1-RAM，它被命名为“GPUDirect支持，在CUDA 5(2012)中引入的。” 但是，我可以在通过Infiniband连接的PCIe总线上使用RDMA吗？加载/存储(从GPU2-Core访问GPU) cuda

浏览 4提问于2013-11-19得票数 3

回答已采纳

1回答

CUDA异步内存复制-哪个硬件设备执行内存复制操作？

cuda

我一直在研究异步CUDA操作，并读到有一个内核执行(“计算”)队列和两个内存复制队列，一个用于主机到设备(H2D)，另一个用于设备到主机(D2H)。可以在这些队列中的每个队列中并发运行操作。如果我正确理解，那么在计算队列中可以同时执行多达16个内核。(32关于一些现代建筑。) 然而，在D2H和H2D队列中只能同时发生一个内存传输。如果两者同时使用，这总共是两个同时进行的内存传输，在两个不同的方向。假设我正确理解了这一切，我的问题是，是哪个设备“管理”数据的传输？进一步的读取表明GPU具有对主机(CPU)存储器(RAM)的直接存储器访问(DMA)。这意味着CUDA设备( GPU)包含一个管

浏览 0提问于2021-06-05得票数 0

1回答

带有映射内存、统一虚拟寻址和统一内存的GPU内存过度订阅

cuda、gpgpu、cuda-uva、unified-memory、mapped-memory

我正在考虑在GPU上处理数据的可能性，这对GPU内存来说太大了，我有几个问题。如果我正确地理解了这一点，使用映射内存，数据驻留在主内存中，并且只有在访问时才被传输到GPU，所以分配给GPU内存不应该是一个问题。 UVA类似于映射内存，但是数据可以存储在CPU和GPU内存中。但是GPU是否有可能在满有自己的数据的同时访问主内存(就像映射内存一样)？在这种情况下会发生内存溢出吗？我已经读过，使用映射内存，数据直接进入本地内存，而不首先被传输到全局内存，在这种情况下不应该有任何溢出。这是真的吗?如果是的话，UVA也是这样吗？在CUDA6.0中，UM不允许过订阅GPU内存(通常也不允许分配比GPU

浏览 3提问于2017-09-20得票数 2

回答已采纳

1回答

等待任何设备已经完成在数据自动化系统？

cuda

我有一个CUDA内核，我想运行多个GPU。在每个GPU上，它执行一个搜索任务，所以我想在每个GPU上启动它，然后在主机代码中等待，直到任何GPU返回(指示它找到了它正在寻找的东西)。我知道cudaDeviceSynchronize()，但这会阻塞直到当前GPU完成。有什么东西可以让我阻止直到任何一个不同的GPU完成？

浏览 4提问于2020-11-24得票数 1

回答已采纳

1回答

GPU ->CPU Memcpy在Tens.Flow word2vec中发生故障

tensorflow、parallel-processing、gpu、memcpy、word2vec

I我正在学习丹索尔·弗洛的word2vec。我们为gpu的并行处理购买了两个1080 i。安装成功，p2p成功。但是，我尝试使用tf.device ('/ gpu: 0')命令将它分配给gpu，发生了以下错误: I tensorflow/core/common_runtime/gpu/gpu_device.cc:885]找到了具有以下属性的设备1：名称: GeForce GTX 1080 Ti 主修:6小调:1 memoryClockRate (GHz) 1.645 pciBusID 0000:66:00.0 总内存: 10.91GiB 空闲内存: 10.21GiB tens

浏览 0提问于2017-09-23得票数 4

3回答

AMD的OpenCL是否提供与CUDA的GPUDirect类似的功能？

cuda、opencl、nvidia、amd、gpudirect

NVIDIA提供来减少内存传输开销。我想知道AMD/ATI是否也有类似的概念？具体地说： 1)在与网卡接口时，AMD GPU是否避免了第二次内存传输。如果图形在某一时刻丢失，这里描述了GPUDirect对从一台机器上的图形处理器获取数据并通过网络接口传输的影响:使用GPUDirect，图形处理器内存进入主机内存，然后直接进入网络接口卡。在没有GPUDirect的情况下，GPU内存在一个地址空间中访问主机内存，然后CPU必须复制内存到另一个主机内存地址空间中，然后它才能访问网卡。 2)当两个GPU在同一PCIe总线上共享时，AMD GPU是否允许P2P内存传输。如果图形在某一时刻丢失，这里将描述

浏览 8提问于2012-02-15得票数 12

回答已采纳