OpenMP运行时有条件的图形处理器目标内核执行

、、

是否有一种语法允许根据运行时条件的状态在设备(GPU)或主机上有条件地执行内核？下面是一个示例fortran代码，它可以根据变量onGPU的状态轻松地切换设备数据子句然而，内核似乎只是在条件为false时中止，并且永远不会在主机上执行。下面是我正在查看的示例代码。问题出在设备内核上。从设备内核中删除if子句并使用data子句可以得到预期的行为。我还尝试了if()语句在内核

浏览 7提问于2021-03-29得票数 1

2回答

OpenCL与OpenMP性能

、

有没有研究比较OpenCL和OpenMP的性能？具体地说，我感兴趣的是使用OpenCL启动线程的开销成本，例如，如果将域分解为非常大量的单独工作项(每个工作项由一个执行小任务的线程运行)，而在OpenMP中，较重的线程是将域分解为数量等于核心数量的子域似乎OpenCL编程模型更多地针对大规模并行芯片(例如GPU)，而不是具有更少但更强大内核的CPU。 OpenCL能成为Op

浏览 0提问于2011-09-01得票数 32

回答已采纳

1回答

如何将OpenMP线程映射到作业调度程序(例如: LSF)分配的特定内核？

、、、

当程序与作业调度器一起运行时，调度程序为作业分配n个处理器核(由用户指定)。当使用OpenMP的程序运行时，OpenMP通常会使用OMP_NUM_THREADS线程，为了简单起见，我们可以说每个线程都映射到不同的处理器核心。OpenMP不知道调度程序(afaik)为程序/作业分配了哪些内核。另外，操作系统实际上是将OpenMP线程映射到核心，而不是OpenMP。我

浏览 3提问于2014-07-11得票数 1

回答已采纳

1回答

CUDA:使用OpenMP运行程序

、、

有没有可能使用CUDA或其他东西在图形处理器上运行带有openMP的程序？我需要在8个或更多的内核上测试程序。感谢您的帮助！

浏览 0提问于2012-10-16得票数 1

回答已采纳

3回答

应用程序将如何安排在超线程支持的多核机器上？

、、

我试图更好地理解超线程支持的多核处理器是如何工作的。假设我有一个可以用MPI、OpenMP或MPI+OpenMP编译的应用程序。据我所知，有四个8核的物理处理器，总物理核是32个，每个处理器核都启用了超线程，逻辑处理器的总数是64。用MPICH2编译，如果我使用mpirun -np 16运行，将使用多少物理内核？它是否在可用的16个物理核或16个逻辑处理

浏览 10提问于2011-01-28得票数 2

1回答

什么是opencl中的主机？

、

我现在正在做教程，但我不能真正掌握的想法是主机可以有人explain.Thank你

浏览 2提问于2011-06-27得票数 6

回答已采纳

1回答

困惑于OMP_NUM_THREADS和numactl NUMA-核绑定

、、、、

对于同一个python命令的多个启动如何绑定到NUMA机器上的核心，我感到困惑。如果4-7都是物理核，那么在HT上只需要两个

浏览 8提问于2021-05-25得票数 2

1回答

` `std::mutex`和` `std::lock`能保证处理器间代码中的内存同步吗？

、、、

我目前正在使用openMP编写在多核节点上运行的代码。openMP有一个特定的内存模型，它保证在获取锁时在不同内核上运行的线程之间的内存同步。我考虑使用C++11结构(带有std::mutex和std::lock的std::thread)而不是openMP (因为它们具有更大的灵活性)，并且想知道这里是否/如何保证处理器之间的内存同步？如果不是，我如何执行</em

浏览 2提问于2012-06-08得票数 6

回答已采纳

1回答

为什么在共享内存结构上OpenMP的减少速度比MPI慢？

、、、

我试着测试了两个向量的内积(元素值是动态计算的)的OpenMP和MPI并行实现，发现OpenMP比MPI慢。loop time = %f sec, total time = %f \n", np, sum, time, ttime); return 0; 我已经用OpenMP尝试了几种不同的实现。这就是我所能达到的最好的性能，而不是复杂化。更新:我已经为OMP写了一个可以接受<e

浏览 8提问于2021-07-08得票数 4

1回答

在OpenCV上使用GPU时，如何确定线程数？

、、、、

我使用OpenCV和VB C++在图形处理器上运行我的代码我的图形处理器设备有96个内核，我的代码使用OpenCV并在上面运行，但我的线程问题是，我想确定线程的数量，以便代码在8个线程上执行一次，在16个线程上执行一次，以此类推，如果在图形处理器OpenCV上不可能，我可以确定在执行时使用的内核</em

浏览 0提问于2018-05-04得票数 1

1回答

VNCoreMLModel启动时间较慢

、

MobileNet.mlmodel测试VNCoreMLModel，我通过VNImageRequestHandler(ciImage: sourceImage, orientation: imageOrientation)发出的第一个请求大约需要1.9秒，但随后的每个请求都需要0.213秒。我只需执行以下操作即可生成请求：VNCoreMLRequest(model: model, completionHandler: { ... }。我没有在生成请求的处理程序(VNImageRequestHandler(ciImage: s

浏览 0提问于2018-11-01得票数 0

1回答

使用openMP对多线程进行多核处理

、、、

这个问题听起来很基本，但我找不到具体的答案。现在假设我们有了一个像corei5 680这样的多核处理器(2个物理核，使用HT支持4个可用的内核到操作系统)。我的问题是，openMP到底适合于哪里?1-当我们说使用openMP的多线程时，它会自动使用所有可用的内核(在本例中是4个虚拟核)并根据可用的CPU周期执行线程吗?2- openmp是否给出了

浏览 3提问于2014-02-07得票数 3

回答已采纳

4回答

在OpenCL上使用OpenACC？

、、

我对OpenACC是个新手，它是一个新的图形处理器加速编程标准。据我所知，OpenACC是一种编译器指令语言，我们可以直接在任何我们想要的地方加速代码，而不需要改变整个代码。这个编程标准将适用于图形处理器，这也不同于OpenMP。我们有用于加速的OpenCL，现在是OpenACC(它非常容易使用，只需给出编译器提示)。对于主机程序加速，我们可以简单地放上编译器指令，那么如果我们有一个内核

浏览 3提问于2013-01-31得票数 6

回答已采纳

1回答

在OpenMP中，不同内核的运行与不同线程的运行是不同的吗？

、

要使用已知数量的线程并行执行代码的一部分，我们通常这样做：{} 然而，我们如何设置内核数目而不是线程呢？这些不一样吗？

浏览 1提问于2021-03-14得票数 2

回答已采纳

1回答

OpenMP 4.0的卸载指令

、、、

我的想法是使用OpenMP 4.0指令将任务卸载到协处理器上。*********************************************************************************问题是，当我

浏览 6提问于2016-02-02得票数 0

1回答

OpenCL上的快速傅立叶变换和快速转换，无需将数据拷贝到主机

、

我想在图形处理器上执行快速傅立叶变换、FastConv和互相关，并将结果传递给其他OpenCL内核，而不是将结果复制到主机内存中。你能建议我一个快速傅立叶变换，FastConv和交叉相关的OpenCL实现，可以被称为内核，而不需要从图形处理器向主机传输数据？

浏览 0提问于2014-05-15得票数 0

2回答

如何将传输数据与执行推力算法重叠？

、、、

我使用(CUDA C++)推力为图形处理器GeForce GTX460SE的asyncEngineCount = 1。因为我知道我可以重叠传输数据的一种方式，或从图形处理器和执行单一内核。但是当我使用的时候：cudaStreamCreate(&Stream1);cudaMemcpyAsynccuda

浏览 0提问于2012-08-16得票数 2

回答已采纳

1回答

使用OpenMP处理程序中的GUI线程

、、、、

我有一个使用OpenMP并行执行一些冗长计算的C++程序。现在，该程序还必须响应用户输入并更新一些图形。到目前为止，我一直从主/GUI线程开始我的计算，仔细地平衡工作负载，以便既不短而不掩盖OpenMP线程开销，也不长而使图形用户界面变得无响应。显然，我希望通过并发运行所有内容来解决这个问题。据我所知，OpenMP 2.5没有提供一个很好的机制来做到这一点。我假设它不是为这类问题而设计的。我也不想把整个<

浏览 3提问于2011-03-12得票数 3

1回答

在OpenCL C中计算内核代码的运行时间

、、、、

我想测量内核代码在不同设备上的性能(读取运行时)，即CPU和GPU。我写的内核代码是：{ A[0]=2; A[1]=3;如果这是真的，那么谁能给出原因，如果不是，请告诉我实现同样的方法。此外，正如我所说的，我希望比较我的CPU和GPU的性能，其中一种方法是通过计算内核代码在不同设

浏览 0提问于2015-07-04得票数 0

1回答

如何为theano启用我的MacBook Pro GPU优化？

、、

浏览 2提问于2015-08-17得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

OpenCL与OpenMP性能

如何将OpenMP线程映射到作业调度程序(例如: LSF)分配的特定内核？

CUDA:使用OpenMP运行程序

应用程序将如何安排在超线程支持的多核机器上？

什么是opencl中的主机？

困惑于OMP_NUM_THREADS和numactl NUMA-核绑定

` `std::mutex`和` `std::lock`能保证处理器间代码中的内存同步吗？

为什么在共享内存结构上OpenMP的减少速度比MPI慢？

在OpenCV上使用GPU时，如何确定线程数？

VNCoreMLModel启动时间较慢

使用openMP对多线程进行多核处理

在OpenCL上使用OpenACC？

在OpenMP中，不同内核的运行与不同线程的运行是不同的吗？

OpenMP 4.0的卸载指令

OpenCL上的快速傅立叶变换和快速转换，无需将数据拷贝到主机

如何将传输数据与执行推力算法重叠？

使用OpenMP处理程序中的GUI线程

在OpenCL C中计算内核代码的运行时间

如何为theano启用我的MacBook Pro GPU优化？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐