关于我正在尝试使用CUDA加速的问题的一些背景信息:
我有大量的小型/中型相同大小的线性系统需要独立求解。每个线性系统都是方形的、实数的、稠密的、可逆的和非对称的。我为n=64,256,512,1024,4096,16384制作了一个大小为(n X n)的随机矩阵,只有在进行因子分解和后退/向前求解时,才不会
我正试图用CUDA解决高斯消除问题。for(int z=0; z< C.width-1; z++) for ( int c = z+1 ; c < C.widthi-1)])*C.elements[(i-1)*C.width+idx]);
}在GPU和CPU上得到的结果是一致的我认为提速应该比我现在的