在一台机器上的多个GPU上训练一个神经网络的最佳实践是什么?我对nn.DataParallel的不同选项和使用.to('cuda:0') and .to('cuda:1')在不同的GPU上放置不同的层感到有点困惑。我在Pytorch 中看到后一种方法,日期是2017年。有标准吗?还是取决于偏好或模型的类型?这两种方法似乎都会导致我的系统冻结,这取决于我使用<e
我一直在谷歌( Google )或学校集群上做深入的学习,所有的事情都做得很好。最近,我需要建立一个工作站来从头开始深入学习,我意识到我对在GPU上运行一个框架(如tensorflow或py手电筒)所需要安装的东西的理解非常有限。那么,谁能用简单的术语来解释,英伟达司机、数据自动化系统和cuDNN的目的是什么?它们是如何一起工作的,或者是在彼此之上的,为什么我需要为tensorflow/Py手电筒安装它们呢?