我的目标是编写一个自定义的returns内核,它既返回每行的argmax,也返回max和submax (第二大max)之间的差异。我是CUDA的新手,我正在使用cupy。作为第一步,我尝试编写自己的max(axis=1)内核。有时它会起作用,但对于大型矩阵,它会崩溃。__str__()
cupy/core/core.pyx in cupy.core.core.
我想知道在相同的代码中并行运行多个cupy函数或numba内核是否可能甚至是安全的。temp1,temp2 = cp.split(temp,2) blocks =temp2)/tpb)) Ti = myCalculations(temp1,temp2) #function that executes some num