pytorch学习笔记(三):自动求导

auto gradient

本片博文主要是对http://pytorch.org/docs/notes/autograd.html的部分翻译以及自己的理解,如有错误,欢迎指正!

Backward过程中排除子图

pytorchBP过程是由一个函数决定的,loss.backward(), 可以看到backward()函数里并没有传要求谁的梯度。那么我们可以大胆猜测,在BP的过程中,pytorch是将所有影响lossVariable都求了一次梯度。但是有时候,我们并不想求所有Variable的梯度。那就要考虑如何在Backward过程中排除子图(ie.排除没必要的梯度计算)。 如何BP过程中排除子图? Variable的两个参数(requires_gradvolatile

requires_grad:

import torch
from torch.autograd import Variable
x = Variable(torch.randn(5, 5))
y = Variable(torch.randn(5, 5))
z = Variable(torch.randn(5, 5), requires_grad=True)
a = x + y  # x, y的 requires_grad的标记都为false, 所以输出的变量requires_grad也为false
a.requires_grad
False
b = a + z #a ,z 中,有一个 requires_grad 的标记为True,那么输出的变量的 requires_grad为True
b.requires_grad
True

变量的requires_grad标记的运算就相当于or。 如果你想部分冻结你的网络(ie.不做梯度计算),那么通过设置requires_grad标签是非常容易实现的。 下面给出了利用requires_grad使用pretrained网络的一个例子,只fine tune了最后一层。

model = torchvision.models.resnet18(pretrained=True)
for param in model.parameters():
    param.requires_grad = False
# Replace the last fully-connected layer
# Parameters of newly constructed modules have requires_grad=True by default
model.fc = nn.Linear(512, 100)

# Optimize only the classifier
optimizer = optim.SGD(model.fc.parameters(), lr=1e-2, momentum=0.9)

volatile

j = Variable(torch.randn(5,5), volatile=True)
k = Variable(torch.randn(5,5))
m = Variable(torch.randn(5,5))
n = k+m # k,m变量的volatile标记都为False,输出的Variable的volatile标记也为false
n.volatile
False
o = j+k #k,m变量的volatile标记有一个True,输出的Variable的volatile为True
o.volatile
True

变量的volatile标记的运算也相当于or。 注意:volatile=True相当于requires_grad=False。但是在纯推断模式的时候,只要是输入volatile=True,那么输出Variable的volatile必为True。这就比使用requires_grad=False方便多了。

NOTE在使用volatile=True的时候,变量是不存储 creator属性的,这样也减少了内存的使用。

为什么要排除子图

也许有人会问,梯度全部计算,不更新的话不就得了。 这样就涉及了效率的问题了,计算很多没用的梯度是浪费了很多资源的(时间,计算机内存)

参考资料

http://pytorch.org/docs/notes/autograd.html

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏LhWorld哥陪你聊算法

【TensorFlow篇】--Tensorflow框架可视化之Tensorboard

TensorBoard是tensorFlow中的可视化界面,可以清楚的看到数据的流向以及各种参数的变化,本文基于一个案例讲解TensorBoard的用法。

16020
来自专栏机器之心

Capsule官方代码开源之后,机器之心做了份核心代码解读

451120
来自专栏贾志刚-OpenCV学堂

使用tensorflow layers相关API快速构建卷积神经网络

tf.layers包中包含了CNN卷积神经网络的大多数层类型,当前封装支持的层包括:

20930
来自专栏PaddlePaddle

【图像分类】使用经典模型进行图像分类

场景文字识别 图像相比文字能够提供更加生动、容易理解及更具艺术感的信息,是人们转递与交换信息的重要来源。图像分类是根据图像的语义信息对不同类别图像进行区分,是计...

1.6K50
来自专栏人工智能

第四课:模型的使用

上一节我们创建了模型对象,也导入了测试集,可以说实现了一个简单机器学习的apk环境和核心代码。这一节我们一起看下开发一个完整的人工智能应用程序需要哪些步骤和代码...

26570
来自专栏fangyangcoder

tensorflow笔记(二)之构造一个简单的神经网络

http://www.cnblogs.com/fydeblog/p/7425200.html

15620
来自专栏磐创AI技术团队的专栏

十 | 门控循环神经网络LSTM与GRU(附python演练)

门控循环神经网络在简单循环神经网络的基础上对网络的结构做了调整,加入了门控机制,用来控制神经网络中信息的传递。门控机制可以用来控制记忆单元中的信息有多少需要保留...

14210
来自专栏磐创AI技术团队的专栏

FastText的内部机制

16830
来自专栏机器学习算法与Python学习

Torch7模型训练

Torch7搭建卷积神经网络详细教程已经详细的介绍啦Module模块,这里再次基础上再给出一些上Container、 Transfer Functions La...

412130
来自专栏游戏开发那些事

【小白学游戏常用算法】一、随机迷宫算法

  现在的很多游戏中的地图一般采用格子的方式,虽然在表面地图上无法看到实际的格子,但是在地图的结构中专门有一个逻辑层,这个层和地图大小相等,划出很多小的格子,然...

18520

扫码关注云+社区

领取腾讯云代金券