首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >用nn.DataParallel重新包装一下

用nn.DataParallel重新包装一下

作者头像
狼啸风云
修改2022-09-03 22:17:27
修改2022-09-03 22:17:27
2.1K0
举报

数据并行有三种情况

前向过程

代码语言:javascript
复制
device_ids=[0, 1, 2]
model = model.cuda(device_ids[0])
model = nn.DataParallel(model, device_ids=device_ids)

只要将model重新包装一下就可以。

后向过程

代码语言:javascript
复制
optimizer = optim.SGD(model.parameters(), lr=learning_rate, momentum=0.9, weight_decay=0.001)
optimizer = nn.DataParallel(optimizer, device_ids=device_ids)
#因为它在DataParallel里面,所以要先变成普通的nn.SGD对象,然后才能调用该类的梯度更新方法。
optimizer.module.step() 

更新学习率的时候也需要注意一下:

代码语言:javascript
复制
for param_lr in optimizer.module.param_groups: #同样是要加module
    param_lr['lr'] /= 2

criterion(loss 函数)

代码语言:javascript
复制
def init_criterion():
    criterion = loss.CrossEntropyLoss2d()
    criterion = torch.nn.DataParallel(
            criterion, range(gpu_nums)).cuda()  # range(self.settings.n_gpu)
    return criterion
    
# criterion = init_criterion()
criterion = loss.CrossEntropyLoss2d()

这个并行的效果对显存是有影响的,但是效果不明显。 训练的时候会出现问题:

代码语言:javascript
复制
loss = criterion(out, labels_tensor)
loss /= N
optimizer.zero_grad()
# loss.backward()
loss.sum().backward()

数据并行返回的结果的维度和之前维度是不一样的所以反向传播的时候需要做一下修改

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/09/30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据并行有三种情况
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档