add“在util.h中声明,在util.cpp中定义。" add“调用"addCUDA”将两个向量相加。请不要介意这种方法,它只是一个测试项目。’ was not declared in this scope}
void addCUDA(double *a, double *b, double *c,
我想添加两个大型矩阵NxN (N是两个矩阵的倍数),并使用CudaC并行化程序。我能够使用512x512大小的矩阵运行程序。但是如果我超越了这一点(例如: 1024x1024),那么它就失败了。我认为问题可能在于,CUDA可以在每个块(?)启动最多512个线程。因此,我的问题是如何改变程序,使我可以矩阵的任何大小。库达核
int col = thr