当GPU中的内核正在运行时，我如何在CPU上执行其他操作？ - 腾讯云开发者社区

cuda、gpu、nvidia、gpgpu、cuda-context

在阅读一些与GPU计算有关的论文时，我坚持理解GPU上下文和GPU硬件通道 bellow这两个术语，但我不明白它们的意思，命令：GPU使用体系结构专用命令进行操作。每个GPU上下文都分配一个FIFO队列，运行在CPU上的程序向队列提交命令。只有当GPU本身发出相应的命令时，才会触发GPU上的计算和数据传输。通道：为每个GPU上下文分配一个GPU硬件通道，其中管理命令调度。费米不允许多个通道同时访问同一个GPU功能单元，但允许它们在硬件中自动切换。因此，对此有一个清晰而简单的解释。

浏览 9提问于2014-04-15得票数 3

回答已采纳

1回答

为什么GPU库不支持自动函数组合？

gpgpu

英特尔的库有一项名为的功能。它允许您指定函数序列、组合函数，并通过缓存友好的平铺处理将组合的函数应用于数组。这比简单地遍历每个函数的整个数组提供了更好的性能。这项技术似乎也会让运行在GPU上的代码受益。有许多可用的GPU库，例如，但似乎没有一个具有像DMIP这样的功能。我是不是遗漏了什么？或者，GPU库不能从自动函数组合中受益有什么原因吗？

浏览 0提问于2013-01-10得票数 0

回答已采纳

1回答

CUDA异步内存复制-哪个硬件设备执行内存复制操作？

cuda

我一直在研究异步CUDA操作，并读到有一个内核执行(“计算”)队列和两个内存复制队列，一个用于主机到设备(H2D)，另一个用于设备到主机(D2H)。可以在这些队列中的每个队列中并发运行操作。如果我正确理解，那么在计算队列中可以同时执行多达16个内核。(32关于一些现代建筑。) 然而，在D2H和H2D队列中只能同时发生一个内存传输。如果两者同时使用，这总共是两个同时进行的内存传输，在两个不同的方向。假设我正确理解了这一切，我的问题是，是哪个设备“管理”数据的传输？进一步的读取表明GPU具有对主机(CPU)存储器(RAM)的直接存储器访问(DMA)。这意味着CUDA设备( GPU)包含一个管

浏览 0提问于2021-06-05得票数 0

1回答

为什么我只有200 MB的GPU使用量，即使我只创建了一个字节的数据？

cuda

我在RTX 3060和RTX 3080 Ti中运行以下代码。通过使用nvidia-smi，我发现RTX 3060和RTX 3080 Ti的实际GPU使用量分别为105 Ti和247 Ti。但是我在GPU中只有一个字节的数据。为什么会这样呢？以及为什么GPU的基本用法不同？ // compiled with nvcc -O3 show_basic_gpu_usage.cu -o show_basic_gpu_usage #include <unistd.h> #include <iostream> int main(){ int run_count = 100

浏览 11提问于2022-08-01得票数 0

回答已采纳

2回答

TensorFlow和Python多处理

tensorflow

在使用TensorFlow时，我编写了以下代码来评估Python多处理的效果： import tensorflow as tf from multiprocessing import Process mydevice = "/gpu:0" gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.01) mrange = 1000 def myfun(): with tf.device(mydevice): mm1 = tf.constant([[float(i) for i in rang

浏览 0提问于2016-07-28得票数 0

1回答

在计算能力5.0中，如何通过CPU和GPU同时访问托管内存？

cuda、gpu-managed-memory

由于在计算能力低于6.x的设备上同时访问托管内存是不可能的，是否有一种方法可以在GPU内核运行时通过CPU和GPU以计算能力5.0来模拟访问托管内存或使CPU访问托管内存。

浏览 0提问于2019-01-22得票数 0

回答已采纳

1回答

为什么numba cuda在几次召回之后跑得很慢？

python-3.x、cuda、numba、pycuda、numba-pro

我在实验如何使用numba内部的cuda。然而，我遇到了一些与我期望不同的事情。这是我的密码 from numba import cuda @cuda.jit def matmul(A, B, C): """Perform square matrix multiplication of C = A * B """ d=cuda.local.array((3,3),dtype=numba.float64) i, j = cuda.grid(2) if i < C.shape[0] and j < C.shape[1]: tmp

浏览 4提问于2018-09-10得票数 3

回答已采纳

1回答

将程序从CPU发送到GPU

shader、gpu

CPU如何知道应该在GPU上执行哪段代码(即如何识别代码是否为着色器)，以及如何将代码发送到GPU VRAM?是通过DMA吗？

浏览 0提问于2020-02-15得票数 0

回答已采纳

3回答

为什么基于GPU的算法执行得更快

cuda、gpgpu、nvidia

我刚刚在GPU上实现了一个算法，可以计算数组的连续索引的差值。我将其与基于CPU的实现进行了比较，并注意到对于大型阵列，基于GPU的实现执行得更快。我很好奇为什么基于GPU的实现执行得更快。请注意，我知道表面上的推理，即GPU有多个内核，因此可以执行并行操作，即，我们可以分配一个线程来计算每个索引的差异，而不是顺序地访问每个索引。但是谁能告诉我为什么GPU的执行速度更快的更深层次的原因。他们的体系结构有什么不同之处，以至于可以击败基于CPU的实现

浏览 5提问于2012-02-11得票数 4

回答已采纳

4回答

在GPU上运行操作系统内核级计算有意义吗？

parallel-processing、operating-system、gpu

我注意到一个GPU可以有数百个内核，这样可以大大加快并行计算的速度。在操作系统内核中，似乎没有并行算法用于加速。人们在用户中进行并行计算的速度与OpenMP相同，但为什么不在内核空间中进行呢？我猜在操作系统内部有很多任务需要并行处理，比如处理多个网络连接和数据包，执行密码操作，管理内存，搜索？一些防火墙通过匹配模式来过滤和监控网络流量，面向研究的OSes可能还会在运行程序之前对其进行分析，这是很耗时的，并且可能是并行的。那么，为什么OSes不使用GPU来提高性能和吞吐量呢？在GPU上运行操作系统计算有意义吗？

浏览 3提问于2011-03-09得票数 14

回答已采纳

1回答

访问自定义op输入值时的分段错误

python、c++、tensorflow、gdb、kernel

我只是遵循，但在尝试读取GPU op的输入值时，总是会出现分段错误。如果我在CPU上执行相同的代码(然后使用不同的REGISTER_KERNEL_BUILDER)，它就会像预期的那样工作。不幸的是，gdb的回溯没有给我提供更多的信息，甚至我也用bazel的调试标志构建了自定义op。这是我的密码 Interface.cc REGISTER_OP("Interface") .Input("pointer_to_grid: int32") .Output("current_grid_data: float32") .SetSh

浏览 0提问于2018-03-29得票数 0

回答已采纳

1回答

keras自动使用gpu吗？

tensorflow、model、keras、gpu

它似乎自动使用gpu，但我不知道为什么。首先，我声明如下： tf_config = tf.ConfigProto( allow_soft_placement=True ) tf_config.gpu_options.allow_growth = True sess = tf.Session(config=tf_config) keras.backend.set_session(sess) 然后，我定义了一些模型如下 with K.tf.device('/gpu:0'): some keras model 这很明显，它将使用gpu，我检查它使用了第一个gpu(索引为0

浏览 0提问于2018-12-26得票数 4

回答已采纳

2回答

是否将多个设备传递给上下文，意味着内核将被分发到两个设备？

c++、opencl

我一直在编写一些基本的OpenCL程序，并在一个设备上运行它们。我一直在对代码的性能进行计时，以了解每个程序的执行情况。我一直在考虑让我的内核在平台上运行，GPU设备和CPU设备同时运行。cl::context构造函数可以传递设备的std：：向量，以使用多个设备初始化上下文。我有一个只有一个GPU和一个CPU的系统。要将内核分发到多个设备，是否只需要构造一个包含可用设备向量的上下文？当我使用两个设备构建上下文时，我注意到了性能的显著提高，但这似乎太简单了。有一个DeviceCommandQueue对象，也许我应该使用它来显式地为每个设备创建一个队列？

浏览 4提问于2021-02-19得票数 2

回答已采纳

1回答

库达定时器- CPU对GPU？

cuda

我试图理解使用CUDA定时器(事件)和常规CPU定时方法(gettimeofday在Linux上等)执行内核定时之间的区别。通过阅读第8.1节，我觉得唯一真正的区别是，当使用CPU计时器时，需要记住同步GPU，因为调用是异步的。想必CUDA事件API会为您做这件事。所以，这是否真的是一个问题：对于GPU事件，不需要显式调用cudaDeviceSynchronize 通过GPU事件，您可以获得一个固有的独立于平台的定时API，而对于CPU，您需要在每个操作系统中使用不同的API。提前感谢

浏览 2提问于2013-12-21得票数 0

回答已采纳

1回答

为什么这个操作在CPU上比GPU执行得更快？

python、tensorflow

当我阅读tensorflow官方指南时，有一个例子显示了操作的显式设备布局。在这个例子中，为什么CPU执行的时间少于GPU？更常见的是，哪种操作在GPU上执行得更快？ import time def time_matmul(x): start = time.time() for loop in range(10): tf.matmul(x, x) result = time.time()-start print("10 loops: {:0.2f}ms".format(1000*result)) # Force execution on CPU

浏览 0提问于2019-06-16得票数 3

回答已采纳

2回答

Tensorflow-GPU上的类CUDA优化

tensorflow

我正在尝试实现一个神经网络体系结构(自组织映射)，以便在GPU上执行。我正在探索这个任务的TensorFlow。在TensorFlow中，我注意到您只需指定gpu作为在gpu上执行某些操作的设备，比如在 post中。看起来，并行操作的方式由TF决定，用户没有选择来做出优化决策。TensorFlow性能指南中的“GPU优化”部分也没有提到对并行化操作的显式控制。我的问题是，我可以在TensorFlow中进行类似CUDA的优化吗？更详细地说，是否有可能定义哪些操作将被并行化(比如为并行操作定义CUDA内核)？

浏览 8提问于2018-01-08得票数 1

回答已采纳

1回答

GPU vs CPU？GPU中用于程序计算加速的内核/线程数？

multithreading、performance、parallel-processing、gpgpu、multicore

为了进行并行计算，我需要一些帮助来理解GPU上的核心与CPU中的核心的概念。当涉及到CPU中的核心时，它似乎非常简单。我有一个超级密集的"for“循环，它会迭代四次。我的英特尔i5 2.26 CPU处理器有四个核心。我给每个内核一个循环。这四个循环中的每一个都是相互独立的。Boom -我现在创建了四个线程，CPU使用率为100% (而不是只有一个内核的CPU使用率为25% )。我的"for“循环现在的运行速度几乎是没有并行化的情况下的四倍。顺便说一下，对于" for“循环，我使用了Microsoft Visual Studio2012上可用的自动并行化，如这个在线示例

浏览 1提问于2013-04-22得票数 6

1回答

cudaMallocManaged和cudaDeviceSynchronize()

cuda

我有以下两个基本相同的示例代码。code1.cu使用cudaMalloc和cudaMemcpy来处理设备/主机变量值交换。 code2.cu使用cudaMallocManaged，因此不需要cudaMemcpy。当使用cudaMallocManaged时，我必须包括cudaDeviceSynchronize()才能得到正确的结果，而对于有cudaMalloc的结果，这是不需要的。我想知道一下为什么会发生这种事码2.cu #include <iostream> #include <math.h> #include <vector> // using nam

浏览 3提问于2019-11-04得票数 1

回答已采纳

4回答

串行CPU与GPU代码

cuda、opencl、gpgpu、heterogeneous

我正在写一篇关于异构计算可能性的理论作业。我需要比较在CPU或GPU上以串行方式执行的单线程(不可并行化)的有效性。我知道这是一个奇怪的问题，因为在GPU上执行单个线程是没有意义的，但我真的可以使用我正在开发的启发式方法的指导线比率。我知道它很容易测试，但我既没有CUDA也没有OpenCL的实际经验，而且我很着急。

浏览 3提问于2011-12-09得票数 0

回答已采纳

1回答

NVPROF的CPU启动和GPU启动的开始和结束的边界在哪里？

cuda、gpu、profiling、nvprof、nvvp

在CPU和GPU (黄色块)中内核启动的开始和结束定义是什么？他们之间的界限在哪里？请注意，CPU和GPU中那些黄色块的开始、结束和持续时间是different.Why CPU调用vecAdd<<<gridSize, blockSize>>>(d_a, d_b, d_c, n);需要那么长时间吗？ #include <stdio.h> #include <stdlib.h> #include <math.h> // CUDA kernel. Each thread takes care of one element o

浏览 1提问于2019-05-14得票数 2

回答已采纳

1回答

如何在使用GPU ( Caffe2 )时更改Caffe2中的blob值

c++、caffe2

我正在尝试手动访问blobs值并更改它。我有一个名为"1conv1_w“的blob，我通过以下方式访问它： auto 1conv1_w = caffe2::TensorCPU((*workspace.GetBlob("1conv1_w")).Get<caffe2::TensorCPU>()).data<float>(); 这将返回指向float*的指针1conv1_w。 std::cout << *1conv1_w << std::endl 访问Blob "1conv1_w“中的第一个值，并修改该值。但是，当转换

浏览 0提问于2017-10-22得票数 0

回答已采纳

1回答

CUDA:是否可以将一个核心作为“主”来执行内存malloc，并运行其他的“逻辑代码”？

c++、tensorflow、cuda

我正在将一个C++程序移植到CUDA，所有的计算都是关于矩阵/向量的。第一个移植函数是矩阵的FFT。在将矩阵的FFT移植到CUDA后，发现CPU和GPU之间的数据传输几乎一直在进行。 // interface: do shift and inverse FFT on a matrix extern "C" int cu_inv_fft_shift(std::complex<double>* ptrDest, int nRows, int nCols) { #ifdef ENABLE_DEBUG_TIME_MEASURE float ms1, ms2

浏览 0提问于2021-02-08得票数 0

1回答

共轭梯度核中cudaDeviceSynchronize()的消去

c、cuda、parallel-processing、gpu、gpgpu

在具有统一内存的TegraK1板上实现共轭梯度求解器。我面临的问题是，在循环中，我必须执行cudaDeviceSynchronize()；两次来更新变量，这与TI Keystone-II相比，对我的性能影响了很多倍，后者的计算能力虽然较低，但我只使用简单的代码来并行计算数据。我使用的是CUDA版本- 6.0。 .... double *A, *b, *x, *x1, *r, *d, *q, deltaNew, deltaFirst, Alpha, deltaOld, Beta; // data for init processing double *temp, *temp1, Alp

浏览 4提问于2015-04-28得票数 0

回答已采纳

1回答

GPU内核的多进程视频处理

cuda、ffmpeg、gpu、video-processing

我们是否可以将多个进程(即100-500个进程)分配给GPU，每个进程在一个GPU内核上运行？在我的视频处理应用中，我必须使用ffmpeg库来处理视频和音频。如果有超过100个甚至500个这样的独立进程，我猜将每个进程分配到一个GPU会更快。然而，我不知道我们是否可以做到这一点，要做到这一点，需要哪些库和工具？库达？

浏览 0提问于2015-08-18得票数 0

2回答

如果同时从多个pthread调用CUDA内核，会发生什么情况？

cuda、pthreads

我有一个CUDA内核来完成我的繁重工作，但我也有一些繁重的工作需要在CPU中完成(同一数组的两个位置的计算)，我无法在CUDA中编写(因为CUDA线程不同步，所以我需要在一个数组的位置X上执行一个繁重的工作，然后执行zx = yx - yx - 1，其中y是CUDA内核的数组结果，其中每个线程都在这个数组的一个位置上工作，z是存储结果的另一个数组)。所以我在CPU中做这件事。我有几个CPU线程来做CPU端的工作，但每个线程都调用一个CUDA内核来传递一些数据。我的问题是:当多个CPU线程进行GPU调用时，GPU端会发生什么？如果我做一次CUDA内核调用，然后创建多个CPU线程来做CPU端的工

浏览 3提问于2012-10-25得票数 3

回答已采纳

1回答

CPU与GPU核心数

compare、gpu、cpu、core

为了进行并行计算，我需要一些帮助来理解GPU上的核心与CPU中的核心的概念。当涉及到CPU中的核心时，它似乎非常简单。我有一个超级密集的"for“循环，它会迭代四次。我的英特尔i5 2.26 CPU处理器有四个核心。我给每个内核一个循环。这四个循环中的每一个都是相互独立的。Boom -我现在创建了四个线程，CPU使用率为100% (而不是只有一个内核的CPU使用率为25% )。我的"for“循环现在的运行速度几乎是没有并行化的情况下的四倍。相比之下，我甚至不知道我的笔记本电脑的GPU (Intel Graphics Media Accelerator HD，或Intel H

浏览 2提问于2014-05-03得票数 1

4回答

为什么不使用CPU作为CPU呢？

cpu、opencl、gpu

我知道这个问题只是部分地与编程有关，因为我想得到的答案来自以下两个问题：为什么CPU核心数量如此之低(vs )？为什么我们不使用GPU而不是CPU，只使用GPU或CPU？(我知道GPU是专门化的，而CPU更适合多任务等等)。我还知道内存(Host )的局限性以及精度和缓存能力。但是，在硬件比较方面，高端到高端CPU/GPU比较GPU的性能要好得多。所以我的问题是：，我们能不能用GPUs代替CPUs，用于操作系统、应用程序等？我之所以问这个问题，是因为我想知道为什么目前的计算机仍然使用两个主处理器(CPU/GPU)和两个主内存和缓存系统(CPU/GPU)，即使这不是程序员想要的。

浏览 5提问于2012-06-12得票数 22

回答已采纳

4回答

GPU从CPU读取还是CPU写入到GPU？

cuda、opencl、gpu

我是并行编程的初学者。我有一个问题，可能看起来很愚蠢，但当我在谷歌上搜索它时，我没有得到一个明确的答案。在GPU计算中，有一个设备，即GPU和主机，即CPU。我写了一个简单的hello world程序，它将在gpu上分配一些内存，将两个参数(例如src[]和dest[])传递给内核，将src字符串(即Hello world )复制到dest字符串，并将dest字符串从gpu获取到主机。字符串"src“是由GPU读取还是由CPU写入GPU？另外，当我们从GPU取回字符串时，是GPU写入CPU还是CPU从GPU读取？在来回传输数据时，有四种可能: 1. CPU到GPU - CPU写入

浏览 6提问于2012-07-03得票数 7

1回答

CUDAfy CopyFromDevice比CopyToDevice慢几个数量级

c#、cuda、cudafy.net

我正在用小型重力模拟测试CUDAfy，在运行代码分析器之后，我看到大部分时间都花在GPU的CopyFromDevice方法上。下面是代码： private void WithGPU(float dt) { this.myGpu.CopyToDevice(this.myBodies, this.myGpuBodies); this.myGpu.Launch(1024, 1, "MoveBodies", -1, dt, this.myGpuBodies); this.myGpu.CopyFromDevice(this.

浏览 2提问于2015-11-12得票数 1

回答已采纳

2回答

内核如何知道CPU是空闲的？

linux、operating-system、kernel、scheduler、processor

我正在研究操作系统，我一直怀疑，当处理器上当前运行的进程请求某些I/O时，CPU将变为空闲状态，然后调度程序会调度另一个进程在CPU上执行。这里的内核是如何知道CPU已经空闲的？处理器是否发送了某种硬件中断？

浏览 1提问于2016-02-15得票数 0

1回答

OpenCL - gpu上的多线程

c++、macos、openmp、opencl、gpgpu

在通过OpenMP并行化C++代码后，我现在正在考虑使用图形处理器( Radeon Pro Vega )来加速我的代码的特定部分。作为一名OpenCL新手，我目前正在寻找能够展示如何实现多核CPU - GPU交互的示例。这是我想要实现的目标。假设有一个固定的短长度数组，例如{1,2,3,4,5}，作为练习，您想要计算此数组的所有可能的“右移位”，即， {5,1,2,3,4} {4,5,1,2,3} {3,4,5,1,2} {2,3,4,5,1} {1,2,3,4,5} 。相对的OpenCL代码非常简单。现在，假设你的CPU有许多核心，比如说56个，每个核心都有一个不同的起始数组，并且在

浏览 45提问于2020-09-07得票数 2

回答已采纳

1回答

CUDA统一内存页，可在CPU中访问，但未从GPU中删除

cuda、tesla、unified-memory

我试着理解CUDA统一记忆的功能。我读过关于CUDA的统一记忆，供初学者使用。我编写了以下代码： #include <cstdio> #include <iostream> #include <fstream> #include <climits> #include <vector> __global__ void transfer(int *X) { X[threadIdx.x] = X[threadIdx.x]+3; } using namespace std; int main() { int *x;

浏览 23提问于2021-12-05得票数 -1

回答已采纳

2回答

是什么使GPU在神经网络计算中如此高效？

performance、neural-network、gpu、cpu

最近，我尝试在大CPU服务器上实现并部署一种深度学习解决方案(多层LSTM网，外加静态输入层)。经过多次尝试，与个人电脑的性能相比，我的速度只提高了3倍。我听说GPU会做得更好。你能解释一下为什么GPU比CPU好得多的确切原因是什么？

浏览 9提问于2016-05-17得票数 5

回答已采纳

3回答

OpenCL或CUDA调用的开销？

c++、cuda、opencl、gpgpu、timing

我正在写一个函数，它做了很多的gemv操作。我希望能够在图形处理器上做到这一点，我已经尝试过使用cuBlas。我的问题是我的矩阵和向量都很小，100x100的矩阵和100的向量。与CPU相比，CuBlas需要很长时间，我明白为什么，cpu上的高速缓存和调用GPU的大量开销混合在一起。因此，我正在尝试找出一种聪明的方法来衡量与GPU通信调用所需的时间。这是CUDA设置调用并将其发送到图形处理器所需的时间--不包括实际执行矩阵向量乘法所需的时间。我该怎么做呢？

浏览 0提问于2012-01-24得票数 4

回答已采纳

1回答

CUDA -多个内核

cuda、gpu

void func(){ int block_size, grid_size; block_size = 32; grid_size = 16; gpu_kernel1<<<grid_size, block_size>>>(x,y); gpu_kernel2<<<grid_size, block_size>>>(x,y); gpu_kernel3<<<grid_size, block_size>>>(x,y); gpu_kernel4<<<grid_size, bl

浏览 0提问于2021-03-02得票数 0

1回答

GPU中的时间戳

cuda、timestamp、nvidia、instrumentation、nvprof

我希望收集在GPU上设备级发生的事件的跟踪。 CPU上的背景/类比：在CPU上，当进程A运行时，它可能会被另一个用户级进程B、系统/内核进程、各种中断(如硬件中断、网络中断、虚拟机管理程序相关中断等)中断。为了度量这些中断，理想情况下，我需要制作一个内核补丁，捕捉所有进程的开始和结束时间，以及调度程序和中断托盘中的中断。使这些内核数据结构对用户级别可见，然后从用户级程序中反复读取它们。我想为GPU做一些类似的事情。如何捕获这些中断和后台进程的时间戳?我在文献中看到可以用来收集时间戳，但我不清楚如何实际测量GPU以获得我需要的东西。有人能指出参考或告诉我如何仪器的GPU获得时间戳吗？或者具

浏览 1提问于2018-03-31得票数 0

1回答

同一来宾的两个进程的QEMU虚拟CPU之间的内存保护

linux、operating-system、virtualization、qemu、kvm

假设来宾操作系统使用2 vCPU (-smp 2)在QEMU/KVM上运行，我的理解是每个vCPU实际上都会映射到一个qemu线程，以便在真正的多核系统上实现并行。这是解释here，并以here为例。在这种情况下，QEMU如何保证这些线程之间在内存中的分离？我认为这是必需的，因为这两个vCPU可能正在执行两个不共享任何内存的不同来宾进程。如果它们被映射到主机线程，那么它们实际上是在同一个虚拟地址空间中运行吗？我是不是遗漏了什么？

浏览 33提问于2020-08-06得票数 1

回答已采纳

3回答

挂钟时间、用户时间和cpu时间有什么不同？

gridengine

我们正在使用GridEngine运行计算作业。每个作业返回3次不同的时间：挂钟时间用户时间 CPU时间这三者有什么区别呢？这三个中哪一个最适合比较两个应用程序/脚本的性能

浏览 0提问于2009-07-31得票数 24

回答已采纳

1回答

利用GPU并行化的转换函数

pytorch、numba

我有一个函数，它使用存储在一个数组中的值对另一个数组进行操作。这与numpy.hist函数的行为类似。例如： import numpy as np from numba import jit @jit(nopython=True) def array_func(x, y, output_counts, output_weights): for row in range(x.size): col = int(x[row] * 10) output_counts[col] += 1 output_weights[col] += y[row]

浏览 6提问于2022-06-16得票数 2

回答已采纳

1回答

在“nvprof”的结果中，“GPU活动”和“API调用”有什么区别？

c++、cuda、nvprof

在“nvprof”的结果中，“GPU活动”和“API调用”有什么区别？我不知道为什么同一个函数有时间差。例如，CUDA memcpy DtoH和cuMemcpyDtoH。所以我不知道什么时候是合适的。我必须写一个测量，但我不知道该用哪一个。

浏览 3提问于2019-04-08得票数 5

回答已采纳

1回答

在cuda中是否支持GPU内核队列？

java、queue、cuda

为了隐藏调用cuda内核的延迟，是否支持调用一系列内核，而不必返回CPU来调用下一个内核？因此，一系列内核可以在GPU设备上出列。在处理更大的内核时，这似乎很重要，因为在这些内核中，您可能会遇到指令大小限制，并且希望创建更多的模块化来减少整体指令大小。(内联可能不是一个好的解决方案) (如果这很重要，我正在使用JCuda，如果这对实现此功能造成限制，请让我知道。)

浏览 4提问于2011-11-30得票数 0

回答已采纳

1回答

使设备内存访问与主机线程同步

cuda、gpu、synchronize

CUDA内核有没有可能在没有任何主机端调用(例如，cudaDeviceSynchronize)的情况下同步写入设备映射内存？当我运行下面的程序时，内核似乎并没有等待设备映射内存的写入完成后才终止，因为在内核启动后立即检查页面锁定的主机内存并没有显示内存的任何修改(除非插入了延迟或者未注释对cudaDeviceSynchronize的调用)： #include <stdio.h> #include <cuda.h> __global__ void func(int *a, int N) { int idx = threadIdx.x; if (idx

浏览 1提问于2012-12-05得票数 4

回答已采纳

1回答

Linux内核的哪一部分强制特权分离，以及如何实现？

linux、linux-kernel

我想知道内核和负责此任务的内核部分是如何执行权限分离的。例如，假设有两个进程在运行--一个在环0，另一个在环3。内核如何跟踪每个进程的环数？编辑:我知道戒指号码。我的问题是内核(模块或其他部分)对进程执行检查以找出它们的特权级别。我相信内核中可能有一个组件来检查进程的环数。

浏览 1提问于2016-08-14得票数 1

回答已采纳

1回答

朱莉娅通过ArrayFire编写GPU代码的最佳方法

julia、arrayfire

在Julia中，我主要看到了在处理矩阵时需要加速和优化代码。 -work按列而不是按行，这是朱莉娅存储矩阵的方式。 -On循环可以使用@inbounds和@simd宏。 -any函数、宏或方法--您可以推荐它:D 但是，当我使用存储在GPU上的矩阵的ArrayFire包时，上面的例子似乎不起作用，CPU和GPU中类似的代码似乎不支持在某些情况下运行速度慢得多的GPU，我认为不应该是这样，我认为问题在于编写代码的方式。欢迎任何帮助。

浏览 2提问于2017-11-15得票数 2

回答已采纳

2回答

ARM马里-如何在CPU和GPU之间共享只读内存对象？

opencl、mali

我正在使用ARM马里T604 GPU。我使用ALLOC_HOST_PTR创建了一个内存对象。我想知道以下程序是否有效？我能否访问(只读取) GPU中的内存对象，同时映射(作为只读) CPU中的同一个内存对象？步骤1:取消映射内存对象(以前映射为CL_MAP_READ_WRITE) 步骤2:使用CL_MAP_READ (参数到clEnqueueMapBuffer())将内存对象映射回步骤3:通过CPU和GPU同时读取和处理数据(但是我不会对这个内存对象执行任何写操作) 步骤4:取消映射内存对象步骤5:使用CL_MAP_READ_WRITE映射内存对象到主机。换句话说，我的最终目标是拥有一

浏览 1提问于2014-06-11得票数 0

回答已采纳

2回答

Cuda:内核启动队列

cuda

我没有找到太多关于内核启动操作机制的信息。说要去看我在那也没找到什么。由于内核执行是异步的，而且一些机器支持并发执行，因此我认为内核有一个队列。 Host code: 1. malloc(hostArry, ......); 2. cudaMalloc(deviceArry, .....); 3. cudaMemcpy(deviceArry, hostArry, ... hostToDevice); 4. kernelA<<<1,300>>>(int, int); 5. kernelB

浏览 2提问于2012-10-06得票数 4

2回答

linux容器显示错误信息

docker、lxc

*我使用特定的cpus在docker中启动linux容器* 在我的容器中输入命令'cat /proc/cpuinfo，容器显示笔记本电脑的全部规格，而不是只显示容器。为什么会发生这种情况？

浏览 1提问于2014-01-29得票数 3

5回答

GPU上的Java :直接在GPUin上完成方法

java、gpu

首先:是否可以使用Java并让它(部分)在GPU上运行或使用GPU？如果可能，是否可以使用正常的Java语法，而不使用特殊的cuda或opencl语法？我只想把我编码的java源代码，让它在GPU上以最小的改动运行。我将非常感谢代码样本。

浏览 0提问于2011-06-24得票数 17

2回答

TensorFlow的random_poisson只在CPU上运行

python、python-3.x、tensorflow、gpu

我正在尝试让TensorFlow的random_poisson函数在我的GPU上运行；考虑到 TensorFlow源代码页有一个函数testCPUGPUMatch来比较在CPU上运行和在GPU上运行时random_poisson的输出，这似乎是可能的。但是，在使用代码进行测试时： import tensorflow as tf with tf.Session() as sess: with tf.device("/gpu:0"): test = sess.run(tf.random_poisson(1.0, [], dtype=tf.float64))

浏览 1提问于2018-06-14得票数 0

回答已采纳

2回答

Tensorflow的while循环在GPU上运行缓慢？

tensorflow

由于未知的原因，下面的代码在GPU上比在CPU上慢两倍。有人能解释一下原因吗： import time import tensorflow as tf with tf.device('/device:GPU:0'): # gpu takes: 5.132448434829712 seconds # with tf.device('/cpu:0'): # cpu takes: 3.440524101257324 seconds i = tf.constant(0) while_condition = lambda i: tf.less(

浏览 0提问于2018-06-20得票数 5