给出了具有nnz(A)非零的非常稀疏的nxn矩阵A和稠密的nxn矩阵B。我想计算矩阵乘积AxB。由于n很大,如果简单地执行,就不能将稠密矩阵B放入内存中。我有两个选择,但不确定哪一个更好。将矩阵B分解为n列向量[b1,b2,...,bn]。然后,我可以将矩阵A和任意一个向量bi放入内存中,并分别计算A*b1, A*b2, ..., A*bn。
O
我正在尝试用TensorFlow构建一个大型的CNN,并打算在一个多图形处理器系统上运行它。我采用了“塔式”系统,为两个CPU拆分批处理,同时将变量和其他计算保留在CPU上。我的系统有32 get的内存,但是当我运行我的代码时,我得到了错误:
E tensorflow/stream_executor/cuda/cuda_driver.cc:924] failed to alloc/tensorflow/