我使用iOS加速框架来寻找二维阵列的快速傅立叶变换。下面的代码正确地工作仅的功率2图像。我们必须垫输入阵列与zeros的非功率2图像。但我不能正确地做填充物。0,0,0,0,0,0对于4*4数组,我正确地将输出作为值为16 (0,0)的8加速FFT编码。 * 2D fft sample working only for power of 2 images.}
我需要用小的矩阵和内核来实现多个卷积,我希望利用GPU的多个处理器能够让我尽可能快地完成它。问题如下:我有许多矩阵(~1,000到~10,000)或相对较小的大小(~15x15到1x1 -如标量),以及一定数量的卷积掩码(~20到1)。B(1)); %res(j) is the result of convolving all 5,000目标是尽可能快地计算,re