如何在OpenACC中不并行化内循环_如何在java中并行化for循环？_如何在Python中并行化循环？ - 腾讯云开发者社区

、

我是一个用OpenACC做图形处理器编程的初学者。我在试着做一个直接卷积。卷积由6个嵌套循环组成。我只想让第一个循环并行化。我为第一个循环指定了杂注#杂注acc循环，为其余循环指定了#杂注acc循环seq。但是我得到的输出是不正确的。我用来并行化循环的方法正确吗？

浏览 12提问于2020-04-30得票数 0

回答已采纳

1回答

未向量化/并行化的OpenACC循环:包含调用

、、

我正在尝试并行化一个用OpenACC构建Voronoi图的程序。目前，我正努力将一个嵌套的for-循环进行平分，该循环调用一个在不同文件中定义的函数。我知道你应该在函数上使用#语用acc例程装饰器，但我不能让它在我的程序中工作。72, Loop is parallelizable生成此输出的主文件中的相关代码如下

浏览 3提问于2020-06-12得票数 0

1回答

java代码能否在GPU上使用开放访问进行并行化

、、

可以使用OpenACC在图形处理器上运行java代码的"for循环“吗？我的数据挖掘算法是用java编写的，我想在GPU上并行我的顺序代码。如何在GPU上实现java代码的并行化？

浏览 1提问于2015-04-14得票数 4

1回答

我正在做一个项目，我试图并行化应用程序。有一些函数，我正在尝试并行化，但问题是这些函数调用其他函数，非常frequently.loops，只是为了计算，并且在一个函数体中有许多循环。我知道OpenACC在它的指令中不支持函数调用(只支持内联调用)，所以我想出了两种方法: a)要么把acc指令放在循环周围并获得所需的并行性，然后忽略函数调用(不是忽略它，而是保持它的原样)(在每个函数体中都这样做) b)或者我可以把被调用的函数体放在调用

浏览 0提问于2013-02-27得票数 0

1回答

我可以使用OpenACC来系统调用Python函数吗？

、

我想在GPU上并行化Python循环，但我不想使用pyCUDA，因为我需要自己做很多事情。我正在寻找像C++中的Python那样的OpenACC来实现简单的并行化，但它似乎没有这样的东西。因此，我认为只需在C++中使用OpenACC，然后系统调用Python脚本，如下面的代码所示。这样行得通吗？或者，有没有不使用pyCUDA的简单替代方案？

浏览 0提问于2017-08-10得票数 0

2回答

OpenACC中的嵌套指令

、、、、

我正在尝试使用OpenACC的嵌套特性来激活gpu卡的动态并行性。我有Tesla40c，我的OpenACC编译器是PGI15.7版。 int ee = A[tid].end; 当然，我只尝试使用例程(seq、worker、gang)，而不使用内部并行循环指令它已经被编译，但是动态并行还没有被激活。42, #pragma acc loop vector, worker /* thr

浏览 7提问于2015-08-12得票数 1

回答已采纳

3回答

内核构造与并行构造的区别

、、、

我研究了很多关于OpenACC的文章和手册，但是我仍然不明白这两个结构的主要区别。

浏览 3提问于2012-11-20得票数 15

回答已采纳

1回答

用GCC ( c++ )编译OpenACC并行CPU代码

、、、

jsolve -fopenacc jsolvec.cppOpenACC

浏览 6提问于2020-04-03得票数 2

回答已采纳

1回答

Slatec + CUDA Fortran

、、

求解过程是直截了当的，只需在计算域中的每个单元格中调用子例程ddriv3，这样看起来如下所示：对于这样的问题，我感到很抱歉，这是一个最明显的答案：“你为什么不自己去尝试去了解它呢？”但我现在的时间非常紧张。我没有任何经验的数据自动化系统，我只是想选择最正确和最简单的方式开始。提前谢谢！

浏览 2提问于2013-08-02得票数 0

回答已采纳

1回答

支持OpenACC的CAPS编译器的限制

、、、

我目前正在写一篇关于编译器级别的自动并行化技术状况的报告。关于OpenACC标准，有几个编译器可用，例如PGI编译器、CAPS或CRAY编译器。但是，我想知道是否对CAPS编译器有特定的限制，这些限制没有记录在OpenACC标准中？我意识到，2.0a可能有一些限制，因为这个标准还没有完全实现，但是有什么我应该注意的陷阱吗？

浏览 1提问于2014-02-18得票数 0

2回答

在OpenACC的PGI编译器中使用-fast时如何解决防止循环矢量化的循环进位依赖

、、、

我想用C语言中的OpenACC并行化一个基于粒子方法的流体流动代码。我是OpenACC的新手，正在尝试理解它的基础知识，同时目前正在将它应用于多核计算机上的代码。稍后，我将尝试将其卸载到GPU。我在代码中的for循环中添加了一些#杂注。在代码的一部分中，当我编译没有-fast的代码时，它编译没有任何问题，但只并行外部循环，但是，当我在编译代码的过程中包含-fast时，它会给我一些数据依赖消息，并且内部循环</

浏览 13提问于2019-12-03得票数 0

回答已采纳

1回答

将PGI OpenACC运行时库与gcc直接连接

、、

我是直接从GCC编译的代码中使用PGI OpenACC运行时API的。Num OpenACC devices: 4$ .另外，Nvidia提

浏览 2提问于2017-08-30得票数 0

回答已采纳

1回答

openacc和缓存平铺

、、

body22 < BLOCK; body22 ++) { }} 我插入OpenACC我查阅了一些文献，他们得出的结论是OpenACC不能充分利用图形处理器中的共享内存。但我认为主要原因是tilling/blocking阻止了并行化。因为平铺带来了数据依赖。如果OpenACC不提供或不鼓励代码平铺？如果有解决方案或示例，那么

浏览 1提问于2016-10-14得票数 0

2回答

OpenACC中内存的有效使用

、、、、

我正在编写一个OpenACC计算流体动力学代码，通过将整体计算分解为几个小操作来增加循环内计算的粒度。R = D1 + D2 + ...如您所见，我可以将计算分散到一个块的线程上，并在最后将结果(通过归约)求和为R。因此，我定义了一个内部并行循环，如下所示： do j=1,m enddo然而，我需要将D定义为所有线程的共享内存，但我不知道OpenA

浏览 2提问于2015-09-05得票数 0

1回答

迭代Karatsuba算法在C++中的OpenACC并行化和矢量化

、、、、

我正在尝试使用C++中的OpenACC来并行化迭代版本的Karatsuba算法。我想问一下如何向量化内部的for loop。我的编译器显示了关于该循环的this消息： Loop carried backward dependence of result-> prevents vectoriz

浏览 3提问于2018-04-13得票数 1

1回答

在openACC处调用一些标志，以便仅对未被允许并行化的循环发出警告

、

我正在使用openACC指令来增强现有的串行代码。我想知道是否有任何编译器标志可以为编译器忽略其并行化的循环调用警告生成，而不是读取整个加速报告谢谢

浏览 1提问于2018-02-28得票数 0

1回答

OpenACC代码在Nvidia V100 GPU上的运行速度是AMD MI250 GPU上的17036.0939901倍。

、、、、

我试图理解为什么我的OpenACC代码在Nvidia V100 GPU上的运行速度是AMDMI-250 GPU的17036.0939901倍。OpenACC test: ptxas info : Used 176 registers, 392 bytes cmem[0] time in secs in OpenACC 329.869873046875 min= -760.4

浏览 13提问于2022-12-01得票数 0

回答已采纳

1回答

OpenACC，共享变量中没有更新的值。

、

关于循环中的共享变量，我有一个问题。在循环计算之后，我想得到i和j的值。以下代码如下：#include<openacc.h> 0我不太明白我是否定义了a[]数组，i，j作为共享变量，一个[]数组已经更新，但是i和j中的值没有变化。

浏览 10提问于2022-09-11得票数 0

1回答

Fortran中循环指令的新手OpenACC问题

这里是OpenACC的新手，所以请耐心等待:-) 我正在尝试移植一些Fortran代码来使用OpenACC，我发现了一种奇怪的行为(至少对我来说是这样)。下面给出了代码，但正如您所看到的，只是一些嵌套循环，它们最终更新了变量zc，我将其复制出来。我试图在我认为需要的地方制作私有副本，并在那一刻明确规定所有循环都是独立的。现在，当我使用和不使用OpenACC进行编译时，如果删除" if (mu2-mup2.ne.q2) cycle“行，一切都是正常的，但是如果该行存在，那么使用OpenAC

浏览 1提问于2017-05-11得票数 0

1回答

OpenACC |Fortran90:并行化嵌套DO循环的最好方法是什么？

、

我正在尝试使用OpenACC中的“折叠”指令来并行化以下嵌套的DO循环结构(下面的第一个代码)。最外层循环中的变量'nbl‘存在于其他DO循环中，因此存在依赖关系。所以我不得不妥协，只对剩下的四个最内部的循环构造“折叠”指令。有没有办法通过利用"nbl = 1，nblock“的并行性来并行化这个循环以获得最大的性能？编译器: pgfortran标志：-acc -

浏览 33提问于2021-07-26得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云