我试图使用select函数根据我的第三个参数从v1和v2中选择元素,但是我不知道如何访问v1和v2中的当前组件。
如果v[i]超过5,我想选择v2[i]到results[i],其他选择v1i,但是我不能那样访问组件。
如有任何建议,将不胜感激!我是这方面的超级初学者
__kernel void copy(__global int4* Array1,
__global int* Array2,
__global int* output
)
{
int id = get_local_id(0);
//Reads the contents from array 1 and 2 into local memory
__local int4 local_array1;
__local int local_array2;
local_array1 = Array1[id];
local_array2 = Array2[id];
//Copy the contents of array 1 into an int8 vector called v
int8 v;
/*i have trouble here too, how do i copy into int8 v from int4 data type */
v = vload8(0, Array1);
//Copy the contents of array 2 into two int8 vectors called v1 and v2
int8 v1, v2;
v1 = vload8(0, Array2);
v2 = vload8(1, Array2);
//Creates an int8 vector in private memory called results
int8 results;
if (any(v > 5) == 1) {
results = select(v2[what do i do to get current index], v1[i], isgreater(v[i], 5.0));*
vstore8(results, 0, output);
}
else {
results.lo = v1.lo;
results.hi = v2.lo;
vstore8 (results, 0, output);
}
}发布于 2019-07-26 08:25:09
您正在尝试通过[]运算符访问向量元素。这在OpenCL是非法的。它可能与一些OpenCL编译器一起工作,但它仍然是未定义的行为。
您注意到,访问向量元素的“正式”方式是vector.X或2) vector.sX,这不允许动态访问。
原因是:向量不是数组。向量应该映射到硬件“向量寄存器”(或多个寄存器)。例如,"float8“将映射到AVX2 CPU上的单个256位AVX寄存器,或映射到AVX1 CPU上的两个128位AVX寄存器。
OpenCL没有一个可以动态访问向量元素的运算符。也许缺少一个特性,但它反映了硬件矢量化的现实:大多数指令只对整个硬件矢量寄存器进行操作,而不是对它们各自的元素进行操作。如果要处理动态选择的向量元素,则必须从向量中提取它。Here are several ways to do it.
在某些特定情况下,使用向量是有意义的;IMO主要用于两种情况: 1)当一组值逻辑地绑定在一起(例如,像素中的颜色)和99.99%的时间中,您不需要访问单个值;2)您有带有向量寄存器的硬件(例如VLIW或GPU),而且您的OpenCL编译器无法“自动向量化”代码,因此您需要手动编写矢量化代码才能获得合理的性能。
在您的代码中,我只需将__global int4* Array1更改为__global int* Array1,编写内核而不使用向量(只需将索引作为普通数组),并查看它的性能。如果你的目标是现代Nvidia/AMD GPU,你根本不需要矢量来获得良好的性能。
https://stackoverflow.com/questions/57215270
复制相似问题