我的最终目标是在Python中加速矩阵向量乘积的计算,可能是通过使用支持CUDA的GPU。矩阵A约为15k x 15k且稀疏(密度约为0.05),向量x为15k个元素且密集,我正在计算Ax。我必须多次执行此计算,因此使其尽可能快将是理想的。我目前的非GPU“优化”是将A表示为scipy.sparse.csc_matrix对象,然后简单地计算A.dot(x),但我希望在连接了几个NVIDIA GPU的VM上加速这一过程
我安装了gpu版本以及CUDA 8.0和python 3.5。,在我导入tensorflow之后,我得到了以下错误:I c:\tf_jenkins\home\workspace\release-win\device\gpusuccessfully opened CUDA library cublas64_80.dll locally
I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorfl
我在想,也许有人能帮我重写这个函数,不管你看上去像日志一样,因为我在结尾给出了同样的结果。我试图从@jit中使用numba,但由于某种原因,它实际上比往常运行代码要慢得多。有了一个巨大的样本大小,目标是大大减少执行时间,所以我相信GPU是最快的方法。
我来解释一下到底发生了什么。在其他三个答案中,有两个是基于CPU的解决方案,一个是tensorflow-GPU尝试。保罗·潘泽( Panzer )的Tensorflow-GPU<