如何在向量处理器SIMD上添加opencl中的所有向量元素(int16)？

在中由于Gen上两个可能的SIMD车道是8或16，为了不浪费SIMD车道，我们需要遵循这个规则。在Gen7.5计算体系结构上，大多数SPMD编程模型使用这种风格的代码生成和EU处理器执行。实际上，每个SPMD内核实例似乎在其自己的SIMD 中以串行和独立的方式执行。那么OpenCL编译器

浏览 3提问于2015-10-31得票数 8

3回答

OpenCL、TBB、OpenMP

、、、

我在OpenMP、TBB和OpenCL中实现了一些普通的循环应用程序。在所有这些应用程序中，当我只在CPU上运行OpeCL而没有在内核中进行特定的优化时，它的性能也比其他应用程序好得多。OpenMP和TBB也提供了很好的性能，但远远不如OpenCL，这是什么原因呢?因为这两个都是CPU专用框架，应该至少提供与OpenMP/TBB相同的性能。我的第二个担忧是，当涉及到Ope

浏览 2提问于2011-08-20得票数 0

5回答

自动矢量化的实际应用？

、、、

有没有人利用了gcc可以做的自动矢量化？在现实世界中(而不是示例代码)？是否需要对现有代码进行重构才能利用它？在任何生产代码中，是否有大量的案例可以通过这种方式进行矢量化？

浏览 1提问于2009-01-03得票数 4

回答已采纳

6回答

如何在Java中使用Intel AVX？

、、

如何使用来自Java的Intel AVX矢量指令集？这是一个简单的问题，但答案似乎很难找到。

浏览 9提问于2014-12-27得票数 21

回答已采纳

2回答

是否可以保证WaveFront (OpenCL)中的所有线程总是同步的？

、、、、

分支发散只在翘曲中发生；不同的翘曲独立执行，不管它们是执行公共的还是不相交的代码路径。 SIMT结构类似于SIMD (单指令，多数据)向量组织，因为一个指令控制多个处理元素。一个关键的区别是SIMD向量组织向软件公开SIMD宽度，而SIMT指令指定单个线程的执行和分支行为。WaveFront (OpenCL)中的线程是线程，它们总是并行执行，但不

浏览 1提问于2017-02-15得票数 2

回答已采纳

2回答

CPU/Intel OpenCL性能问题，实现问题

、、、、

出现这些问题是因为我有相同问题的OpenMP和OpenCL实现。OpenCL在GPU上运行得很好，但在CPU上运行时性能下降了50% (与OpenMP实现相比)。有一个帖子，但我想我的问题更笼统。据我所知:向量化内核并不一定意味着编译的二进制文件中没有向量/SIMD指令。我检查了我的内核的装配代码，有一堆SIMD指令。向量</

浏览 1提问于2012-11-15得票数 10

回答已采纳

1回答

非图像基本结构中的OpenCV float vs double

、

我理解为什么在OpenCV的大图像中选择使用浮点数而不是双精度，因为它减少了图像所需的内存。但是，对于摄影机矩阵、旋转矩阵、平移向量和2D/3D点等其他OpenCV对象，是否有理由优先使用float而不是double？我知道OpenCV倾向于抱怨你试图使用不同类型的矩阵和向量来执行数学运算(例如，执行涉及浮点图像的像素值及其在用双OpenCV结构表示的图像中的相应位置的数学运算)这(对我来说很明显)使用fl

浏览 3提问于2020-05-02得票数 0

5回答

在使用float4、opencl时加速

我有以下opencl内核函数来获取图像的列总和。我还使用float4重写了上面的内核，这样每个线程就可以从源映像中一次读取4个元素，如下所示。; dstIdx += (dstStep/4); }在这种情况下，理论上，我认为第二个内核处理图像所消耗的时间应该是第一个内核函数所消耗时间的四分之一。然而，无论图像有多大，这两个内核几乎消耗相同<e

浏览 1提问于2013-04-28得票数 4

5回答

为什么许多编程语言缺乏标准的向量类型？

、

许多语言，例如C，甚至是C++、C#或Java，都没有本机支持的向量(SIMD)类型或功能。在这种语言中，必须使用非标准扩展或第三方库来访问向量类型/指令，或者在没有它们的情况下进行到期，只希望它们的编译器足够聪明，能够自动将代码向量化。我看不出如何：自

浏览 0提问于2023-03-24得票数 1

回答已采纳

1回答

在WaveFront中，我们是否可以使用“霉运()”指令在项(线程)之间进行reg数据交换？

、、、、

众所周知，WaveFront (AMD OpenCL)非常类似于WARP：。还知道，AMD建议我们使用本地内存增加(减少)数字。(__m128i a, __m128i b); SIMD-车道上的x86_

浏览 6提问于2017-02-15得票数 5

回答已采纳

2回答

当编写openCL代码时，它在没有图形处理器的单核机器上的性能如何？

、、、

大家好，我目前正在为一个研究项目将一个从FORTRAN 77移植到C语言的光线跟踪器移植到C。此外，代码将是GPLed，我们希望看到它被其他可能具有截然不同的硬件的人使用。因此，在没有GPU甚至多核系统的情况

浏览 0提问于2011-01-31得票数 4

回答已采纳

1回答

microsoft.bcl.simd怎么了？

、、、

我清楚地记得关于C#的SSE增强向量的公告，我知道我们在不久前对它们做了一些测试。现在，他们似乎从互联网上消失了。2014年的NuGet一揽子计划仍然存在，但已被除名：这个项目是正式停止了，还是被合并成了其他项目？

浏览 2提问于2015-11-25得票数 6

回答已采纳

4回答

GPGPU用于3d数学

、、、

我读了很多关于gpgpu的书，我现在正在学习OpenGL。现在我必须自己编写所有的数学(或者使用现有的第三方库)，我有了使用gpu而不是cpu来创建我自己的数学库的想法。(矩阵、向量等)有什么特别的原因吗？也许CPU在这些任务上做得更好？

浏览 0提问于2012-12-19得票数 0

回答已采纳

2回答

数据自动化系统核心有矢量指令吗？

、、、、

根据大多数NVidia文档，CUDA核心是标量处理器，应该只执行标量操作，这将被矢量化到32组件的SIMT翘曲。但是OpenCL有向量类型，例如，uchar8.It的大小与ulong (64位)相同，可以由单个标量核处理。如果我对一个uchar8向量进行操作(例如，组件级的加法)，这也会映射到单个核上的指令吗？编辑:我的问题是，在CUDA体系结构上(独立于OpenCL)，是否有一些

浏览 3提问于2018-01-19得票数 3

回答已采纳

2回答

OpenCL与OpenMP性能

、

有没有研究比较OpenCL和OpenMP的性能？具体地说，我感兴趣的是使用OpenCL启动线程的开销成本，例如，如果将域分解为非常大量的单独工作项(每个工作项由一个执行小任务的线程运行)，而在OpenMP中，较重的线程是将域分解为数量等于核心数量的子域似乎OpenCL编程模型更多地针对大规模并行芯片(例如GPU)，而不是具有更少但更强大内核的CPU。 OpenCL

浏览 0提问于2011-09-01得票数 32

回答已采纳

1回答

编译警告OpenCL矩阵乘法

、、、、

__attribute__((num_simd_work_items(4)))__attribute__((reqd_work_group_size

浏览 1提问于2019-12-16得票数 3

回答已采纳

2回答

SIMD微体系结构

、、、

我正在尝试理解向量处理器和SIMD架构之间的区别。我知道这两者在向量寄存器长度可配置性方面存在差异。然而，我不确定他们的微体系结构有什么不同？对于SIMD机器，我们需要拥有与每条指令操作的元素数量一样多的处理单元吗？或者就像向量处理器一样，我们可以拥有比向量寄存器中的数据元素数量更少的处理单元

浏览 0提问于2019-06-21得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云