torch.nn.dataparallel - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Pytorch多GPU训练

torch.nn.DataParallel()这个主要适用于单机多卡。个人一般比较喜欢在程序开始前，import包之后使用os.environ['CUDA_VISIBLE_DEVICES']来优先设定好GPU。例如要使用物理上第0,3号GPU只要在程序中设定如下：

03

Pytorch 高效使用GPU的操作

深度学习涉及很多向量或多矩阵运算，如矩阵相乘、矩阵相加、矩阵-向量乘法等。深层模型的算法，如BP，Auto-Encoder，CNN等，都可以写成矩阵运算的形式，无须写成循环运算。然而，在单核CPU上执行时，矩阵运算会被展开成循环的形式，本质上还是串行执行。GPU（Graphic Process Units，图形处理器）的众核体系结构包含几千个流处理器，可将矩阵运算并行化执行，大幅缩短计算时间。随着NVIDIA、AMD等公司不断推进其GPU的大规模并行架构，面向通用计算的GPU已成为加速可并行应用程序的重要手段。得益于GPU众核（many-core）体系结构，程序在GPU系统上的运行速度相较于单核CPU往往提升几十倍乃至上千倍。

03

您找到你想要的搜索结果了吗？

是的

没有找到

torch.nn.DataParallel类

class torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)[source]

03

Unexpected key(s) in state_dict: "module.backbone.bn1.num_batches_tracked"

在使用PyTorch进行深度学习模型训练和推理时，我们经常会使用state_dict来保存和加载模型的参数。然而，有时当我们尝试加载保存的state_dict时，可能会遇到Unexpected key(s) in state_dict错误，并指明错误的键名。本文将介绍该错误的原因和解决方法。

03

Pytorch中多GPU训练指北

在数据越来越多的时代，随着模型规模参数的增多，以及数据量的不断提升，使用多GPU去训练是不可避免的事情。Pytorch在0.4.0及以后的版本中已经提供了多GPU训练的方式，本文简单讲解下使用Pytorch多GPU训练的方式以及一些注意的地方。

05

神器：多卡同步的Batch Normalization

CW，广东深圳人，毕业于中山大学（SYSU）数据科学与计算机学院，毕业后就业于腾讯计算机系统有限公司技术工程与事业群（TEG）从事Devops工作，期间在AI LAB实习过，实操过道路交通元素与医疗病例图像分割、视频实时人脸检测与表情识别、OCR等项目。

00

PyTorch分布式训练简介

分布式训练已经成为如今训练深度学习模型的一个必备工具，但pytorch默认使用单个GPU进行训练，如果想用使用多个GPU乃至多个含有多块GPU的节点进行分布式训练的时候，需要在代码当中进行修改，这里总结一下几种使用pytorch进行分布式训练的方式。

02

TensorFlow和PyTorch的实际应用比较

TensorFlow和PyTorch是两个最受欢迎的开源深度学习框架，这两个框架都为构建和训练深度学习模型提供了广泛的功能，并已被研发社区广泛采用。但是作为用户，我们一直想知道哪种框架最适合我们自己特定项目，所以在本文与其他文章的特性的对比不同，我们将以实际应用出发，从性能、可伸缩性和其他高级特性方面比较TensorFlow和PyTorch。

03

【colab pytorch】提取模型中的某一层

modules()会返回模型中所有模块的迭代器，它能够访问到最内层，比如self.layer1.conv1这个模块，还有一个与它们相对应的是name_children()属性以及named_modules(),这两个不仅会返回模块的迭代器，还会返回网络层的名字。

03

用nn.DataParallel重新包装一下

数据并行有三种情况前向过程device_ids=[0, 1, 2]model = model.cuda(device_ids[0])model = nn.DataParallel(model, device_ids=device_ids)只要将model重新包装一下就可以。后向过程optimizer = optim.SGD(model.parameters(), lr=learning_rate, momentum=0.9, weight_decay=0.001)optimizer = nn.DataPar

01

解决Unexpected key(s) in state_dict: "module.backbone.bn1.num_batches_tracked"

在使用深度学习模型进行训练和预测的过程中，我们通常需要保存和加载模型的参数。PyTorch是一个常用的深度学习框架，提供了方便的模型保存和加载功能。但是，在加载模型参数时，有时会遇到一个常见的错误信息："Unexpected key(s) in state_dict: "module.backbone.bn1.num_batches_tracked""

02

【colab pytorch】模型定义

像卷积、池化、激活函数、批量归一化、全连接等等，只要把握好输入的维度和输出的维度，慢慢定义就好了。

03

如何使用特定显卡跑pyTorch

如何使用特定显卡跑pyTorch。方法一：改变系统变量使得仅目标显卡可见：export CUDA_VISIBLE_DEVICES=0 #这里是要使用的GPU编号，正常的话是从0开始然后再运行pyTorch即可。方法二：使用torch.cuda接口：#在生成网络对象之前：torch.cuda.set_device(0)方法三：使用多pytorch的并行GPU接口：net = torch.nn.DataParallel(model, device_ids=[0])方法四：初始化模型时net = Net.cuda

01

PyTorch重大更新：将支持自动混合精度训练！

混合精度训练（mixed precision training）可以让模型训练在尽量不降低性能的情形下提升训练速度，而且也可以降低显卡使用内存。目前主流的深度学习框架都开始支持混合精度训练。对于PyTorch，混合精度训练还主要是采用NVIDIA开源的apex库。但是，PyTorch将迎来重大更新，那就是提供内部支持的混合精度训练，而且是自动混合精度训练：

04

GPU捉襟见肘还想训练大批量模型？谁说不可以

2018 年的大部分时间我都在试图训练神经网络时克服 GPU 极限。无论是在含有 1.5 亿个参数的语言模型（如 OpenAI 的大型生成预训练 Transformer 或最近类似的 BERT 模型）还是馈入 3000 万个元素输入的元学习神经网络（如我们在一篇 ICLR 论文《Meta-Learning a Dynamical Language Model》中提到的模型），我都只能在 GPU 上处理很少的训练样本。

03

class torch.nn.parallel.DistributedDataParallel()

torch.nn.parallel.DistributedDataParallel(module, device_ids=None, output_device=None, dim=0, broadcast_buffers=True, process_group=None, bucket_cap_mb=25, find_unused_parameters=False, check_reduction=False)[source]

03

Pytorch中的分布式神经网络训练

随着深度学习的多项进步，复杂的网络（例如大型transformer 网络，更广更深的Resnet等）已经发展起来，从而需要了更大的内存空间。经常，在训练这些网络时，深度学习从业人员需要使用多个GPU来有效地训练它们。在本文中，我将向您介绍如何使用PyTorch在GPU集群上设置分布式神经网络训练。

02

PyTorch专栏（七）:模型保存与加载那些事

【磐创AI 导读】：本篇文章讲解了PyTorch专栏的第三章中的保存和加载模型。查看专栏历史文章，请点击下方蓝色字体进入相应链接阅读。查看关于本专栏的介绍：PyTorch专栏开篇。

03

PyTorch算法加速指南

原标题 | Speed Up your Algorithms Part 1 — PyTorch

02

PyTorch | 保存和加载模型教程

原文 | https://pytorch.org/tutorials/beginner/saving_loading_models.html

02

讲解torch 多进程卡死

在使用PyTorch进行多进程训练时，有时会遇到程序卡死的问题。本文将介绍可能导致torch多进程卡死的原因以及如何解决这个问题。

00

【pytorch】onnx

pytorch任意形式的model（.t7、.pth等等）转.onnx全都可以采用固定格式。

02

使用RaySGD更快，更便宜的PyTorch

分发深度学习模型训练已经成为何时进行训练的问题，而不是如果这样做。最先进的ML模型（例如BERT）具有数亿个参数，而在一台机器上训练这些大型网络将花费数天甚至数周的时间。

02

PyTorch5:torch.nn总览&torch.nn.Module

PyTorch 把与深度学习模型搭建相关的全部类全部在 torch.nn 这个子模块中。

03

收藏 | PyTorch Cookbook：常用代码段集锦

链接 | https://zhuanlan.zhihu.com/p/59205847

02

[源码解析] PyTorch 分布式(1)------历史和概述

本文主要在对PyTorch官方文档的翻译之上加入了自己的理解，希望给大家一个PyTorch分布式的历史脉络和基本概念，有兴趣的朋友可以仔细研究一下历史，看看一个机器学习系统如何一步一步进入分布式世界 / 完善其功能。

02

我用AI给女友画了一幅画，这届算法有点强！

小时候，我其实还是有点艺术细胞的，喜欢看火影忍者和七龙珠的我，虽然没学过绘画，但也笨手笨脚地画了不少作品。

03

在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练

先进的深度学习模型参数正以指数级速度增长:去年的GPT-2有大约7.5亿个参数，今年的GPT-3有1750亿个参数。虽然GPT是一个比较极端的例子但是各种SOTA模型正在推动越来越大的模型进入生产应用程序，这里的最大挑战是使用GPU卡在合理的时间内完成模型训练工作的能力。

02

PyTorch系列 | 如何加快你的模型训练速度呢？

原题 | Speed Up your Algorithms Part 1 — PyTorch

03

[源码解析] PyTorch 流水线并行实现 (1)--基础知识

本系列开始介绍PyTorch的流水线并行实现。实质上，PyTorch就是 GPipe 的PyTorch版本。这些开源软件在互相借鉴思路，互相学习，从 PyTorch 的源码注释中，可以见到我们之前介绍的部分框架/库的引用或者论文链接。

02

PyTorch神经网络的高效训练指南！

本文介绍在使用 PyTorch 高效训练深度学习模型的 17 种方法。该文所提方法，都是假设你在 GPU 环境下训练模型。关于pytorch-GPU的介绍可以参考文章：深度学习GPU环境配置及建模（Python）

03

Github项目推荐 | PyTorch代码规范最佳实践和样式指南

AI 科技评论按，本文不是 Python 的官方风格指南。本文总结了使用 PyTorch 框架进行深入学习的一年多经验中的最佳实践。本文分享的知识主要是以研究的角度来看的，它来源于一个开元的 github 项目。

02

提升PyTorch训练速度，小哥哥总结了17种方法！

学习率 schedule 的选择对模型的收敛速度和泛化能力有很大的影响。Leslie N. Smith 等人在论文《Cyclical Learning Rates for Training Neural Networks》、《Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates 》中提出了周期性（Cyclical）学习率以及 1Cycle 学习率 schedule。之后，fast.ai 的 Jeremy Howard 和 Sylvain Gugger 对其进行了推广。下图是 1Cycle 学习率 schedule 的图示：

03

【他山之石】“最全PyTorch分布式教程”来了！

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注。

01

让PyTorch训练速度更快，你需要掌握这17种方法

近日，Reddit 上一个帖子热度爆表。主题内容是关于怎样加速 PyTorch 训练。原文作者是来自苏黎世联邦理工学院的计算机科学硕士生 LORENZ KUHN，文章向我们介绍了在使用 PyTorch 训练深度模型时最省力、最有效的 17 种方法。

03

PyTorch训练加速17技

近日，Reddit 上一个帖子热度爆表。主题内容是关于怎样加速 PyTorch 训练。原文作者是来自苏黎世联邦理工学院的计算机科学硕士生 LORENZ KUHN，文章向我们介绍了在使用 PyTorch 训练深度模型时最省力、最有效的 17 种方法。

02

Python多阶段框架实现虚拟试衣间，超逼真！

具体地说，就是提出了一个多阶段的框架，将生成分解为空间对齐，然后由粗到细生成。为了更好地保留显著区域的细节，如服装和面部区域，我们提出了一个树块(树扩张融合块)来利用多尺度特征在发生器网络。通过多个阶段的端到端训练，可以联合优化整个框架，最终使得视觉逼真度得到了显著的提高、同时获得了细节更为丰富的结果。在标准数据集上进行的大量实验表明，他们提出的框架实现了最先进的性能，特别是在保存服装纹理和面部识别的视觉细节方面。

03

让PyTorch训练速度更快，你需要掌握这17种方法

近日，Reddit 上一个帖子热度爆表。主题内容是关于怎样加速 PyTorch 训练。原文作者是来自苏黎世联邦理工学院的计算机科学硕士生 LORENZ KUHN，文章向我们介绍了在使用 PyTorch 训练深度模型时最省力、最有效的 17 种方法。

02

让PyTorch训练速度更快，你需要掌握这17种方法

近日，Reddit 上一个帖子热度爆表。主题内容是关于怎样加速 PyTorch 训练。原文作者是来自苏黎世联邦理工学院的计算机科学硕士生 LORENZ KUHN，文章向我们介绍了在使用 PyTorch 训练深度模型时最省力、最有效的 17 种方法。

02

Pytorch 多卡并行训练

DataParallel 使用起来非常方便，我们只需要用 DataParallel 包装模型，再设置一些参数即可。需要定义的参数包括：参与训练的 GPU 有哪些，device_ids=gpus；用于汇总梯度的 GPU 是哪个，output_device=gpus[0] 。DataParallel 会自动帮我们将数据切分 load 到相应 GPU，将模型复制到相应 GPU，进行正向传播计算梯度并汇总：

02

【技术分享】pytorch的FINETUNING实践（resnet18 cifar10)

pytorch的resnet18模型引用：https://github.com/kuangliu/pytorch-cifar

09

PyTorch最佳实践，怎样才能写出一手风格优美的代码

虽然这是一个非官方的指南，但本文总结了一年多使用 PyTorch 框架的经验，尤其是用它开发深度学习相关工作的最优解决方案。请注意，我们分享的经验大多是从研究和实践角度出发的。

03

Pytorch多GPU的计算和Sync BatchNorm

这里需要注意的是，仅仅调用Tensor.to()只会在GPU上返回一个新的copy，并不会对原来的引用造成变化，因此需要通过赋值rewrite。

02

DataParallel里为什么会显存不均匀以及如何解决

鉴于网上此类教程有不少模糊不清，对原理不得其法，代码也难跑通，故而花了几天细究了一下相关原理和实现，欢迎批评指正！

02

PyTorch最佳实践，怎样才能写出一手风格优美的代码

虽然这是一个非官方的 PyTorch 指南，但本文总结了一年多使用 PyTorch 框架的经验，尤其是用它开发深度学习相关工作的最优解决方案。请注意，我们分享的经验大多是从研究和实践角度出发的。

03

PyTorch深度学习模型训练加速指南2021

简要介绍在PyTorch中加速深度学习模型训练的一些最小改动、影响最大的方法。我既喜欢效率又喜欢ML，所以我想我也可以把它写下来。

01

当代研究生应当掌握的并行训练方法（单机多卡）

每天给你送来NLP技术干货！ ---- 排版：AI算法小喵 1. Take-Away 笔者使用 PyTorch 编写了不同加速库在 ImageNet 上的使用示例（单机多卡）。需要的同学可以当作 quickstart 将所需要的部分 copy 到自己的项目中（Github 请点击下面链接）： nn.DataParallel[1] 简单方便的 nn.DataParallel torch.distributed[2] 使用 torch.distributed 加速并行训练 torch.multiprocessi

02

PyTorch 60 分钟入门教程：数据并行处理

在这个教程中，我们将学习如何用 DataParallel 来使用多 GPU。通过 PyTorch 使用多个 GPU 非常简单。你可以将模型放在一个 GPU：

01

pytorch demo 实践

相关环境 python opencv pytorch ubuntu 14.04 pytorch 基本内容 60分钟快速入门，参考：https://blog.csdn.net/u014630987/article/details/78669051 需要学习的内容包括 1、基本概念Tensors、Variable、Numpy等 2、如何搭建神经网络模型（包括卷积神经网络） 3、如何定义损失函数和优化器（包括不同分类器和优化器的含义） 4、如何训练（包括如何读取数据、如何在GPU上

06

解决pytorch多GPU训练保存的模型,在单GPU环境下加载出错问题

在公司用多卡训练模型，得到权值文件后保存，然后回到实验室，没有多卡的环境，用单卡训练，加载模型时出错，因为单卡机器上，没有使用DataParallel来加载模型，所以会出现加载错误。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭