gpu并行编程 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

什么是数据自动化系统和OpenCL？它们是如何和为什么被用于PoW挖掘？

、、

根据wikipeda的定义：库达是Nvidia创建的并行计算平台和应用程序编程接口(API)模型。它允许软件开发人员和软件工程师使用CUDA支持的图形处理单元(GPU)进行通用处理，这种方法称为GPU(图形处理单元上的通用计算)。CUDA平台是一个软件层，可以直接访问GPU的虚拟指令集和并行计算元素，用于执行计算内核。OpenCL(开放计算语言)是一个跨异构平台执行程序的框架，包括中央处理器(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、现场可编

浏览 0提问于2017-07-22得票数 1

1回答

如何为cuda并行编程提供输入文件？

、、、

我必须在CUDA并行编程模型中实现向量点积，以便利用GPU进行计算。我将通过输入文件测试我的代码，输入文件有两个要相乘的向量。我如何给输入文件在cuda并行编程的这个实现？

浏览 13提问于2019-05-29得票数 0

1回答

GPU并行编程C/C++

、

我想学习gpu并行编程的C/C++。我应该使用什么库和编译器。如果他们是开源的，那就太好了。注意:我有一些关于openmp和mpi的练习。虽然它只适用于cpu并行编程。

浏览 4提问于2017-06-29得票数 2

回答已采纳

1回答

如何在一个内核函数中启动一个新的内核调用？

我对CUDA编程很陌生。现在，我有一个问题要处理:我试图使用CUDA并行编程来处理一组数据集。对于每个数据集，都需要做一些矩阵计算。在1中的每个线程中，我想使用一个新函数，这个函数也像内核一样工作，因为它们是矩阵calc.例如调用M线程并行处理矩阵计算。有人知道这是否可能吗？

浏览 4提问于2013-10-11得票数 3

回答已采纳

2回答

为什么Jacobi方法是在GPU上实现的一个很好的候选算法？

我知道GPU有数百个核心，可以同时处理数千个线程，而在Jacobi迭代中，您实际上是在一次又一次地使用相同的数字来更新向量。这就是为什么在GPU上实现Jacobi方法是个好主意吗，特别是如果我们有一个非常大的系统，因为我们有那么多的冗余计算？我想我不太明白为什么Jacobi方法适合GPU

浏览 0提问于2014-12-03得票数 5

1回答

用spyder在GPU上实现python代码

、

根据知识，with tf.device('/GPU')可用于在GPU中实现张量流.有没有类似的方法在GPU(Cuda)上实现任何python代码？还是我应该用俾库达？

浏览 2提问于2018-06-04得票数 2

1回答

在opengl的着色器中应该做多少工作？

、、、、

我应该避免在opengl中的着色器中进行过多的计算吗？

浏览 3提问于2013-03-04得票数 1

回答已采纳

1回答

Arrayfire python是否支持多GPU编程

、、

我正在尝试使用GPU ()进行多arrayFire编程。但是，当我尝试将它与并发期货()库连接时，我遇到了同步问题。有谁有关于如何使用arrayfire-python在多个GPU上并行处理的建议吗？

浏览 7提问于2016-11-08得票数 2

1回答

将所有CUDA函数更改为host device

、、

我想在CUDA中使用exist函数，但它包含许多类和其他函数。在每个函数之前添加__host__ __device__是微不足道的。那么，有没有一种自动的方法来做到这一点呢？或者如何让nvcc将所有函数编译为__device__ __host__。

浏览 6提问于2013-04-23得票数 1

回答已采纳

2回答

GPGPU和多核？

、、、、

从程序员的角度来看，GPGPU和常规的多核/多线程CPU编程之间的主要实际区别是什么？具体地说：哪种类型的问题更适合于常规多核，哪些类型更适合GPGPU? GPU的主要区别是什么？If 有哪些关键的底层硬件差异需要在编程模型中出现任何差异？哪种问题通常更容易使用，由多少来决定?从长远来看，为GPU实现高级并行性库，例如或GPU计算是非常有效的，为什么GPU的设计不更像GPU？

浏览 0提问于2011-05-07得票数 38

回答已采纳

2回答

数据自动化系统是什么样的？它是用来做什么的？有什么福利待遇？那怎么开始呢？

、、

(除了给GPU编程之外，还有什么更多的东西吗？)使用CUDA编程而不是向CPU编程有什么好处？什么是开始使用数据自动化系统编程的好地方？

浏览 3提问于2011-03-06得票数 30

回答已采纳

2回答

GPU如何并行处理非图形数据？

、

由于图形管道中引入了可编程着色器，使得GPGPU的概念得以实现，它利用GPU作为通用的并行数据处理引擎。然而，据我所知，与GPU相比，GPU仍被大量用于图形处理，因此它使用了许多无法编程的固定图形流水线级。如果我的理解是正确的，当一个数据被GPU处理，不管数据的类型(图形还是一般的)，它应该通过固定的图形管道处理，包括可编程的阶段和非可编程的固定阶段。如果你能解释GPU管道是如何为GPGPU工作的，我会很感激的。

浏览 2提问于2020-06-25得票数 0

回答已采纳

2回答

Python中并行计算的性能低于无并行计算

、、、

我只是写了一个在Numba上使用list和parallel的例子，如bellow Parallel and No Parallel：<code>A0</code><code>A1</code

浏览 34提问于2021-03-13得票数 0

1回答

cublas_sgemm使用了多少内核/线程？

、、、

我是GPU和并行编程的新手。我想在不同的数据上并行执行一个函数，比如x1，x2，x3……'A‘调用函数'cublas_sgemm’。那么我是否需要关心cublas_sgemm的实现呢？

浏览 2提问于2015-05-14得票数 0

2回答

为什么使用块\网格而不是for-循环？

、、、

__ void kernel( int n ) { Code( );}当所需迭代的次数与线程数不对齐时，我想第二个(for-循环)更好。(我们可以在最后一个线程\core中更改n变量)

浏览 2提问于2015-04-11得票数 0

回答已采纳

1回答

FPGA的并行程度如何？

、

我是为GPU世界而来的。当我向GPU提交要处理的1024x1024像素的图像时，我知道GPU上没有1048576个并行运行的线程。如果GPU的波形大小是64，那么64个线程实际上是并行运行的。然后这些波形中的许多也是并行运行的。我想说的是，一个GPU可以真正地同时并行运行它的所有线程流处理器。这从几百到10K不等。对于1024x1024的映像，具有10K线程的GPU必须串行运行100个并行工作负载块

浏览 48提问于2021-08-26得票数 0

2回答

OpenCL/CUDA支持的GPU有哪些主要区别？

、、、

供应商必须更改/添加哪些内容才能使其GPU适合与OpenCL (或CUDA)配合使用？我知道有计算单元和处理元素(OpenCL)。但是GPU以前能够做并行工作，只是没有那么容易编程的便利性。

浏览 0提问于2012-04-02得票数 1

回答已采纳

5回答

是否有运行在GPU上的函数式编程语言？

、、、、

使用传统的顺序约简方法，将下列图形简化为：(+ 3 (+ 3 4)) ->10(+ (+ 1 2) (+ 3 4)) ->10 据我所知，每种函数式编程语言都使用第一种方法。我认为这主要是因为，在CPU上，调度线程过多地补偿了并行裁减的好处。然而，最近，我们开始在并行应用程序中使用GPU而不是CPU。如果一种语言完全在<e

浏览 2提问于2014-02-05得票数 9

2回答

在不使用任何库的情况下编程gpu，如cuda或opencl？

、、、、

我想知道是否有一种方法，我们可以使用GPU计算(例如，两个矩阵的乘法)，而不使用任何库或API。我只想用C写一个程序，我不想使用数据自动化系统( CUDA )或OpenCL之类的工具。

浏览 6提问于2015-11-23得票数 4

回答已采纳

点击加载更多

什么是数据自动化系统和OpenCL？它们是如何和为什么被用于PoW挖掘？

如何为cuda并行编程提供输入文件？

GPU并行编程C/C++

如何在一个内核函数中启动一个新的内核调用？

为什么Jacobi方法是在GPU上实现的一个很好的候选算法？

用spyder在GPU上实现python代码

在opengl的着色器中应该做多少工作？

Arrayfire python是否支持多GPU编程

将所有CUDA函数更改为host device

GPGPU和多核？

数据自动化系统是什么样的？它是用来做什么的？有什么福利待遇？那怎么开始呢？

GPU如何并行处理非图形数据？

Python中并行计算的性能低于无并行计算

cublas_sgemm使用了多少内核/线程？

为什么使用块\网格而不是for-循环？

FPGA的并行程度如何？

OpenCL/CUDA支持的GPU有哪些主要区别？

是否有运行在GPU上的函数式编程语言？

在不使用任何库的情况下编程gpu，如cuda或opencl？

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐