每个线程(内核)根据线程id (即大小999xM )从2D数组中提取999大小向量,然后循环遍历行(0 .N-1)的输出矩阵进行计算。计算了一些中间参数,仅在+ - * /算子中使用pow、sin和cos。要计算输出矩阵中的一个,需要执行一个额外的循环,以总结前面提取的999向量的贡献。此循环进行一些中间计算,以确定允许贡献的值范围。然后,通过计算分数值的cos和正弦值所确定的因子对所述贡献进行缩放。这就是它坠毁的地方。from some intermediate variables and t