我正在远程访问高性能计算节点。我不确定NVIDIA Collective Communications Library (NCCL)是否安装在我的目录中?有没有办法检查NCCL
发布于 2021-04-07 19:29:24
如果使用PyTorch,则可以尝试使用locate nccl| grep "libnccl.so" | tail -n1 | sed -r 's/^.*\.so\.//'
或torch.cuda.nccl.version()
对于容器,有时没有可用的locate
,可以用ldconfig -v
:ldconfig -v | grep "libnccl.so" | tail -n1 | sed -r 's/^.*\.so\.//'
替换它
发布于 2021-07-23 01:34:12
您通常可以在命令行中执行此操作:
nvcc --version
您可能需要运行以下命令:
sudo apt install nvidia-cuda-toolkit
也是。
正如另一个回答者所提到的,您可以这样做:
torch.cuda.nccl.version()
在pytorch。将此复制粘贴到您的终端:
python -c "import torch;print(torch.cuda.nccl.version())"
我相信在tensorflow中也有类似的东西。
https://stackoverflow.com/questions/66984809
复制相似问题