又为啥可以降低通信成本呢?...时可以选择gloo而GPU则可以是nccl
「Backend」 「gloo」 「mpi」 「nccl」
Device CPU GPU CPU GPU CPU GPU
send ✓ ✘ ✓ ?...,即为GPU的数量
rank 进程id,主节点rank=0,其他的在0和world_size-1之间
local_rank 进程在本地节点/机器的id
举个例子,假如你有两台服务器(又被称为node)...,每台服务器有4张GPU,那么,world_size即为8,rank=[0, 1, 2, 3, 4, 5, 6, 7], 每个服务器上的进程的local_rank为[0, 1, 2, 3]
然后是「初始化方法...运行结束后记得销毁进程:
def cleanup():
dist.destroy_process_group()
cleanup()
如何启动
在终端输入下列命令【单机多卡】
python