开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么我们需要在`zero_grad`中调用`detach_`？

在深度学习中，我们通常使用反向传播算法来更新模型的参数。在每次反向传播之前，我们需要清除之前计算的梯度信息，以避免梯度累积的影响。这时候就需要使用zero_grad函数来将模型参数的梯度置零。

在调用zero_grad之后，我们需要注意的是，如果我们在模型中使用了自动微分机制（例如PyTorch中的autograd），梯度信息会被保留在计算图中，可能会导致内存占用过高。为了避免这种情况，我们可以在调用zero_grad之后使用detach_函数将梯度信息从计算图中分离出来。

detach_函数的作用是将张量从计算图中分离出来，使其成为一个独立的张量，不再与计算图有关联。这样做的好处是可以减少内存占用，并且避免不必要的计算。在调用detach_之后，该张量将不再具有梯度信息，因此不会参与反向传播的计算。

需要在zero_grad中调用detach_的原因是为了清除模型参数的梯度信息，并将梯度从计算图中分离出来，以避免内存占用过高和不必要的计算。这样可以确保每次反向传播时，只计算当前批次的梯度，而不会受到之前批次的梯度影响。

相关搜索:为什么ReaderWriterLockSlim要在EnterReadLock()中调用睡眠()呢？为什么在nodejs流中需要在finish之后调用close？为什么我们不需要在HttpGet Create中返回视图(new Person())？为什么我们不需要在super()中包含self呢？为什么我们在Js中需要CallBack函数为什么我们不简单地在Main函数中调用函数？为什么我们要在docker中同时使用--detach开关和--interactive和--tty？为什么我们要在keras中重置测试生成器？为什么我们要在react-i18中使用http加载翻译？为什么我们要在resnet-50架构中增加维度？为什么我们要在tensorflow中构建变量字典

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

pytorch .detach() .detach_() 和 .data用于切断反向传播的实现

这篇文章主要介绍了pytorch .detach() .detach_() 和 .data用于切断反向传播的实现。

03

element 0 of tensors does not require grad and does not have a grad_fn

在使用PyTorch进行深度学习模型训练的过程中，你可能会遇到一个错误消息："element 0 of tensors does not require grad and does not have a grad_fn"（张量的第0个元素不需要梯度且没有梯度计算函数）。这个错误通常与梯度计算和自动求导相关，本篇文章将详细解释该错误的原因，并给出解决方法。

06

torch.utils.checkpoint

在反向传播期间通过对每个检查分割运行一个前向传递分割来实现。这可能导致RNG状态等持久状态比没有检查点时更高级。默认情况下，检查点包含切换RNG状态的逻辑，这样使用RNG(例如通过dropout)的检查点通过与非检查点通过相比具有确定性的输出。根据检查点操作的运行时间，存储和恢复RNG状态的逻辑可能会导致适度的性能下降。如果不需要与非检查点传递相比的确定性输出，则向检查点或checkpoint_sequential提供preserve_rng_state=False，以省略每个检查点期间的RNG状态的存储和恢复。

01

动手学DL——深度学习预备知识随笔【深度学习】【PyTorch】

多加一个括号，结果都是一致的，都是表示二维张量，张量形状都是（4，9），所以二维有两种写法，但再加一层括号，形状就变成了(1,4,9)三维，判断维数技巧：最外面的括号去掉开始数，比如：

02

PyTorch 60分钟入门系列之自动求导

在PyTorch中所有神经网络的核心是autograd软件包。我们先来简单介绍一下这个，然后再构建第一个神经网络。 autograd包为Tensors上的所有操作提供了自动求导。它是一个运行过程中定义的框架（define-by-run），这意味着反向传播是由代码的运行方式来定义的，并且每一次迭代都可能不同。

01

Pytorch-自动微分模块

自动微分模块是PyTorch中用于实现张量自动求导的模块。PyTorch通过torch.autograd模块提供了自动微分的功能，这对于深度学习和优化问题至关重要，因为它可以自动计算梯度，无需手动编写求导代码。torch.autograd模块的一些关键组成部分：

01

[源码解析] PyTorch 流水线并行实现 (5)--计算依赖

前几篇文章我们介绍了 PyTorch 流水线并行的基本知识，自动平衡机制和切分数据等，本文我们结合论文内容来看看如何实现流水线依赖，核心就是如何建立这些小批次之间的跨设备依赖关系。

03

Pytorch_第三篇_Pytorch Autograd (自动求导机制)

Pytorch Autograd库 (自动求导机制) 是训练神经网络时，反向误差传播(BP)算法的核心。

02

[源码解析] 深度学习流水线并行 GPipe(3) ----重计算

GPipe是一个基于 Lingvo （Lingvo 是 Google 基于 TensorFlow 二次开发的重点针对序列模型的框架）开发的，支持超大规模模型的神经网络训练并行库，本文介绍其重计算功能，同时可以和其他实现一起印证。

02

[源码解析]深度学习利器之自动微分(3) --- 示例解读

本文从 PyTorch 两篇官方文档开始为大家解读两个示例。本文不会逐句翻译，而是选取重点并且试图加入自己的理解。

03

动态计算图

Pytorch是一个基于Python的机器学习库。它广泛应用于计算机视觉，自然语言处理等深度学习领域。是目前和TensorFlow分庭抗礼的深度学习框架，在学术圈颇受欢迎。

03

图深度学习入门教程（四）——训练模型的原理

深度学习还没学完，怎么图深度学习又来了？别怕，这里有份系统教程，可以将0基础的你直接送到图深度学习。还会定期更新哦。

01

PyTorch专栏（二）

autograd 包是 PyTorch 中所有神经网络的核心。首先让我们简要地介绍它，然后我们将会去训练我们的第一个神经网络。该 autograd 软件包为 Tensors 上的所有操作提供自动微分。它是一个由运行定义的框架，这意味着以代码运行方式定义你的后向传播，并且每次迭代都可以不同。我们从 tensor 和 gradients 来举一些例子。

03

【NLP】深入了解PyTorch：autograd

接下来介绍方法.requires_grad_()该方法可以原地改变Tensor的属性.requires_grad的值，如果没有改变默认为FALSE

04

详解RuntimeError: one of the variables needed for gradient computation has been mo

在深度学习中，经常会使用自动微分技术（Automatic Differentiation）来计算模型参数的梯度，以进行模型的优化训练。然而，有时我们可能会遇到一个异常：RuntimeError: 一个用于梯度计算的变量已被就地操作修改。本文将详细解释这个异常的原因及解决方法。

01

PyTorch 2.2 中文官方教程（十一）

PyTorch C++ 前端是 PyTorch 机器学习框架的纯 C++ 接口。虽然 PyTorch 的主要接口自然是 Python，但这个 Python API 坐落在一个庞大的 C++ 代码库之上，提供了基础数据结构和功能，如张量和自动微分。C++ 前端暴露了一个纯 C++11 API，扩展了这个底层 C++ 代码库，提供了用于机器学习训练和推断所需的工具。这包括一个内置的常见神经网络建模组件集合；一个 API 用于扩展此集合以添加自定义模块；一个流行的优化算法库，如随机梯度下降；一个并行数据加载器，具有定义和加载数据集的 API；序列化例程等。

01

我的PyTorch模型比内存还大，怎么训练呀？

随着深度学习的飞速发展，模型越来越臃肿先进，运行SOTA模型的主要困难之一就是怎么把它塞到 GPU 上，毕竟，你无法训练一个设备装不下的模型。改善这个问题的技术有很多种，例如，分布式训练和混合精度训练。

04

PyTorch 1.0 中文官方教程：Autograd：自动求导

PyTorch中，所有神经网络的核心是autograd包。先简单介绍一下这个包，然后训练我们的第一个的神经网络。

02

PyTorch 学习 -2- 自动求导

PyTorch 中，所有神经网络的核心是 autograd 包。autograd 包为张量上的所有操作提供了自动求导机制。它是一个在运行时定义 ( define-by-run ）的框架，这意味着反向传播是根据代码如何运行来决定的，并且每次迭代可以是不同的。

02

经验 | PyTorch开发部署时5个常见错误

ML是有趣的，ML是受欢迎的，ML无处不在。大多数公司要么使用TensorFlow，要么使用PyTorch，还有些老家伙喜欢Caffe。

03

Automatic differentiation package - torch.autograd

torch.autograd提供实现任意标量值函数的自动微分的类和函数。它只需要对现有代码进行最小的更改—您只需要声明张量s，对于该张量，应该使用requires_grad=True关键字计算梯度。

01

PyTorch 学习 -7- 训练和评估

首先应该设置模型的状态：如果是训练状态，那么模型的参数应该支持反向传播的修改；如果是验证/测试状态，则不应该修改模型参数。在PyTorch中，模型的状态设置非常简便，如下的两个操作二选一即可：

03

[源码分析] Facebook如何训练超大模型--- (5)

我们在前文介绍过，微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 GPU 上进行扩展。而FSDP（Fully Sharded Data Parallel）是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，其本质是 parameter sharding。Parameter sharding 就是把模型参数等切分到各个GPU之上。我们会以 Google，微软和 Facebook 的论文，博客以及代码来进行学习分析。

01

反向传播和其他微分算法

当我们使用前馈神经网络接收输入，并产生输出时，信息通过网络前向流动。输入x并提供初始信息，然后传播到每一层的隐藏单元，最终产生输出。这称之为前向传播。在训练过程中，前向传播可以持续前向直到它产生一个标量代价函数。反向传播算法，经常简称为backprop，允许来自代价函数的信息通过网络向后流动，以便计算梯度。

01

PyTorch 的 Autograd详解

每天给你送来NLP技术干货！地址 | https://zhuanlan.zhihu.com/p/69294347作者 | xiaopl@知乎编辑 | 极市平台 PyTorch 作为一个深度学习平台，在深度学习任务中比 NumPy 这个科学计算库强在哪里呢？我觉得一是 PyTorch 提供了自动求导机制，二是对 GPU 的支持。由此可见，自动求导 (autograd) 是 PyTorch，乃至其他大部分深度学习框架中的重要组成部分。了解自动求导背后的原理和规则，对我们写出一个更干净整洁甚至更高效的 PyT

02

PyTorch中model.zero_grad()和optimizer.zero_grad()用法

当optimizer = optim.Optimizer(net.parameters())时，二者等效，其中Optimizer可以是Adam、SGD等优化器

02

「笔记」PyTorch预备知识与基础操作

为了知道模块中可以调用哪些函数和类，我们调用 dir 函数。例如，我们可以(查询随机数生成模块中的所有属性：)

02

深度解析 PyTorch Autograd：从原理到实践

自动微分（Automatic Differentiation，简称 Autograd）是深度学习和科学计算领域的核心技术之一。它不仅在神经网络的训练过程中发挥着至关重要的作用，还在各种工程和科学问题的数值解法中扮演着关键角色。

02

反向传播算法：定义，概念，可视化

通常，当我们使用神经网络时，我们输入某个向量x，然后网络产生一个输出y，这个输入向量通过每一层隐含层，直到输出层。这个方向的流动叫做正向传播。

03

with torch.autograd.set_detect_anomaly(True)

在深度学习中，自动微分是训练神经网络的关键技术之一。PyTorch作为一个广泛使用的深度学习框架，提供了强大的自动微分功能。然而，在处理复杂的模型或计算图时，可能会出现梯度计算错误或其他异常。为了帮助调试这些问题，PyTorch提供了torch.autograd.set_detect_anomaly(True)函数，用于启用自动微分异常检测。

01

【深度学习】翻译：60分钟入门PyTorch（二）——Autograd自动求导

原文翻译自：Deep Learning with PyTorch: A 60 Minute Blitz

01

深度学习利器之自动微分(2)

本文和上文以 Automatic Differentiation in Machine Learning: a Survey为基础，逐步分析自动微分这个机器学习的基础利器。

03

还不会使用PyTorch框架进行深度学习的小伙伴，看过来

今年初，Facebook 推出了 PyTorch 1.0，该框架集成了谷歌云、AWS 和 Azure 机器学习。学习本教程之前，你需要很熟悉 Scikit-learn，Pandas，NumPy 和 SciPy。这些程序包是使用本教程的重要先决条件。

02

[源码解析] 深度学习流水线并行GPipe (2) ----- 梯度累积

梯度累积是一种增大训练时 batch size的技术，在本地使用 micro-batch 多次进行正向和反向传播积累梯度后，再进行梯度规约和优化器更新，这是用来均摊通信成本的一种常用策略。本文通过几个框架/库的实现对比，让大家对这个技术有进一步的了解。

03

AI框架跟计算图什么关系？PyTorch如何表达计算图？

目前主流的深度学习框架都选择使用计算图来抽象神经网络计算表达，通过通用的数据结构（张量）来理解、表达和执行神经网络模型，通过计算图可以把 AI 系统化的问题形象地表示出来。

03

【Pytorch 】笔记二：动态图、自动求导及逻辑回归

疫情在家的这段时间，想系统的学习一遍 Pytorch 基础知识，因为我发现虽然直接 Pytorch 实战上手比较快，但是关于一些内部的原理知识其实并不是太懂，这样学习起来感觉很不踏实，对 Pytorch 的使用依然是模模糊糊，跟着人家的代码用 Pytorch 玩神经网络还行，也能读懂，但自己亲手做的时候，直接无从下手，啥也想不起来，我觉得我这种情况就不是对于某个程序练得不熟了，而是对 Pytorch 本身在自己的脑海根本没有形成一个概念框架，不知道它内部运行原理和逻辑，所以自己写的时候没法形成一个代码逻辑，就无从下手。这种情况即使背过人家这个程序，那也只是某个程序而已，不能说会 Pytorch，并且这种背程序的思想本身就很可怕，所以我还是习惯学习知识先有框架（至少先知道有啥东西）然后再通过实战（各个东西具体咋用）来填充这个框架。而「这个系列的目的就是在脑海中先建一个 Pytorch 的基本框架出来, 学习知识，知其然，知其所以然才更有意思 :)」。

05

【动手学深度学习】笔记一

torch.Tensor是存储与变换数据的主要工具。Tensor（张量）是一个多维数组，标量可以看作是0维张量，向量可以看作是1维张量，矩阵可以看作是2维张量。

02

PyTorch 源码解读之 torch.autograd：梯度计算详解

原文链接：https://zhuanlan.zhihu.com/p/321449610

04

PyTorch 重磅更新，不只是支持 Windows

这次版本的主要更新一些性能的优化，包括权衡内存计算，提供 Windows 支持，24个基础分布，变量及数据类型，零维张量，张量变量合并，支持 CuDNN 7.1，加快分布式计算等，并修复部分重要 bug等。

02

PyTorch 源码解读之 torch.autograd

来源 | https://zhuanlan.zhihu.com/p/321449610

01

PyTorch 的这些更新，你都知道吗？

翻译 | 林椿眄出品 | AI 科技大本营（公众号ID：rgznai100）一些你可能不知道的优质公众号！这次版本的主要更新一些性能的优化，包括权衡内存计算，提供 Windows 支持，24个基础分布，变量及数据类型，零维张量，张量变量合并，支持 CuDNN 7.1，加快分布式计算等，并修复部分重要 bug等。 ▌目录主要变化张量/变量合并零维张量数据类型版本迁移指南新特性张量高级的索引功能快速傅里叶变换神经网络权衡内存计算瓶颈—用于识别代码热点的工具 torch中的分布 2

04

【深度学习】翻译：60分钟入门PyTorch（三）——神经网络

原文翻译自：Deep Learning with PyTorch: A 60 Minute Blitz

01

[源码解析] PyTorch 分布式(13) ----- DistributedDataParallel 之反向传播

上文我们已经对Reduer的前向传播进行了分析，本文就接着来看看如何进行反向传播。

04

线性神经网路——线性回归随笔【深度学习】【PyTorch】【d2l】

3.1、线性回归线性回归是显式解，深度学习中绝大多数遇到的都是隐式解。 3.1.1、PyTorch 从零实现线性回归 %matplotlib inline import random impo

04

最新翻译的官方 PyTorch 简易入门教程

https://github.com/fengdu78/machine_learning_beginner/tree/master/PyTorch_beginner

03

PyTorch专栏（四）：小试牛刀

【磐创AI 导读】：本篇文章讲解了PyTorch专栏的第三章中的PyTorch小试牛刀。查看专栏历史文章，请点击下方蓝色字体进入相应链接阅读。查看关于本专栏的介绍：PyTorch专栏开篇。想要更多电子杂志的机器学习，深度学习资源，大家欢迎点击上方蓝字关注我们的公众号：磐创AI。

03

Pytorch中requires_grad_(), detach(), torch.no_grad()的区别

文章作者：Tyan 博客：noahsnail.com | CSDN | 简书

01

[源码解析] PyTorch 分布式 Autograd (1) ---- 设计

本文以几篇PyTorch官方文档为基础来了解分布式 autograd 的设计和内部结构，在翻译时并没有逐字翻译，其中加入了自己的部分理解。分布式 autograd 后续文章的分析也会基于本文进行。

02

Pytorch Autograd 基础（一）

Autograd (自动梯度）是Pytorch能够快速又灵活地构建机器学习模型的关键。它能够用来快速而简单地计算复杂函数的多重偏导数，它是基于反向传播的神经网络学习的核心。

04

PyTorch 60分钟入门系列之神经网络

前面的学习大致了解了autograd，nn依赖于autograd来定义模型并进行求导。一个nn.Module包含多个神经网络层，以及一个forward(input)方法来返回output。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭