我在一台g2.2xlarge AWS机器上运行this Pytorch example。因此,当我运行time python imageNet.py ImageNet2时,它在以下时间运行良好:
real 3m16.253s
user 1m50.376s
sys 1m0.872s但是,当我添加world-size参数时,它被卡住了,并且不执行任何操作。命令如下:time python imageNet.py --world-size 2 ImageNet2
那么,如何通过此脚本中的world-size参数来利用DistributedDataParallel功能。world-size参数是number of distributed processes。
我是否要为此目的启动另一个类似的实例?如果是,那么脚本如何识别该实例?是否需要添加一些参数,如实例的IP等?
https://stackoverflow.com/questions/45674497
复制相似问题