我正在尝试在CUPY中使用多个GPU并行化多个矩阵乘法。 Cupy加速矩阵乘法(例如$A\times B$)。我想知道我是否有四个方阵A,B,C,D。我想在两个不同的本地GPU上计算AB和CD。例如,在tensorflow中, for i in xrange(FLAGS.num_gpus):
with tf.device('/gpu:%d' % i): 在CUPY中也有类似的方法吗?关于Cupy的事情
我阅读了cupy文档中关于如何同时使用cupy和numba以及如何使用cuda加速代码的示例。out[2] out of GPU:new out[2] which only use cupy:the total time of running cupyaddition and transfering new out[2] out of GPU:在第一种情况下,out2的</