前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >mmdetection/mmdetection3d多机多卡训练

mmdetection/mmdetection3d多机多卡训练

作者头像
烤粽子
发布2022-09-19 15:17:19
1.2K0
发布2022-09-19 15:17:19
举报

因为3d检测训练时间太久,所以想要在mmdet3d上开多机,发现加载完标注文件pkl/json之后,卡住了,找到如下报错

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

其中有个warning :using best-guess GPU, 大概率是rank不对, 找到相关代码:

代码语言:javascript
复制
def init_dist(launcher, backend='nccl', **kwargs):
    if mp.get_start_method(allow_none=True) is None:
        mp.set_start_method('spawn')
    if launcher == 'pytorch':
        _init_dist_pytorch(backend, **kwargs)
    elif launcher == 'mpi':
        _init_dist_mpi(backend, **kwargs)
    elif launcher == 'slurm':
        _init_dist_slurm(backend, **kwargs)
    else:
        raise ValueError(f'Invalid launcher type: {launcher}')


def _init_dist_pytorch(backend, **kwargs):
    # TODO: use local_rank instead of rank % num_gpus
    rank = int(os.environ['RANK'])
    local_rank = int(os.environ["LOCAL_RANK"])
    num_gpus = torch.cuda.device_count()
    # torch.cuda.set_device(rank % num_gpus)
    torch.cuda.set_device(local_rank)
    dist.init_process_group(backend=backend, **kwargs)
    # device = torch.device("cuda", local_rank)

没什么问题,按照提示修改torch.cuda.set_device(local_rank)还是不work, 怀疑环境没搞对,增加环境初始化:

代码语言:javascript
复制
def configure_nccl():
    import subprocess
    os.environ["NCCL_LAUNCH_MODE"] = ""
    os.environ["NCCL_IB_DISABLE"] = "0"
    os.environ["NCCL_IB_HCA"] = subprocess.getoutput(
        "cd /sys/class/infiniband/ > /dev/null; for i in mlx5_*; "
        "do cat $i/ports/1/gid_attrs/types/* 2>/dev/null "
        "| grep v >/dev/null && echo $i ; done; > /dev/null"
    )
    os.environ["NCCL_IB_GID_INDEX"] = "3"
    os.environ["NCCL_IB_TC"] = "106"

work!

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-08-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档