pytorch学习笔记(三):自动求导

auto gradient

本片博文主要是对http://pytorch.org/docs/notes/autograd.html的部分翻译以及自己的理解,如有错误,欢迎指正!

Backward过程中排除子图

pytorchBP过程是由一个函数决定的,loss.backward(), 可以看到backward()函数里并没有传要求谁的梯度。那么我们可以大胆猜测,在BP的过程中,pytorch是将所有影响lossVariable都求了一次梯度。但是有时候,我们并不想求所有Variable的梯度。那就要考虑如何在Backward过程中排除子图(ie.排除没必要的梯度计算)。 如何BP过程中排除子图? Variable的两个参数(requires_gradvolatile

requires_grad:

import torch
from torch.autograd import Variable
x = Variable(torch.randn(5, 5))
y = Variable(torch.randn(5, 5))
z = Variable(torch.randn(5, 5), requires_grad=True)
a = x + y  # x, y的 requires_grad的标记都为false, 所以输出的变量requires_grad也为false
a.requires_grad
False
b = a + z #a ,z 中,有一个 requires_grad 的标记为True,那么输出的变量的 requires_grad为True
b.requires_grad
True

变量的requires_grad标记的运算就相当于or。 如果你想部分冻结你的网络(ie.不做梯度计算),那么通过设置requires_grad标签是非常容易实现的。 下面给出了利用requires_grad使用pretrained网络的一个例子,只fine tune了最后一层。

model = torchvision.models.resnet18(pretrained=True)
for param in model.parameters():
    param.requires_grad = False
# Replace the last fully-connected layer
# Parameters of newly constructed modules have requires_grad=True by default
model.fc = nn.Linear(512, 100)

# Optimize only the classifier
optimizer = optim.SGD(model.fc.parameters(), lr=1e-2, momentum=0.9)

volatile

j = Variable(torch.randn(5,5), volatile=True)
k = Variable(torch.randn(5,5))
m = Variable(torch.randn(5,5))
n = k+m # k,m变量的volatile标记都为False,输出的Variable的volatile标记也为false
n.volatile
False
o = j+k #k,m变量的volatile标记有一个True,输出的Variable的volatile为True
o.volatile
True

变量的volatile标记的运算也相当于or。 注意:volatile=True相当于requires_grad=False。但是在纯推断模式的时候,只要是输入volatile=True,那么输出Variable的volatile必为True。这就比使用requires_grad=False方便多了。

NOTE在使用volatile=True的时候,变量是不存储 creator属性的,这样也减少了内存的使用。

为什么要排除子图

也许有人会问,梯度全部计算,不更新的话不就得了。 这样就涉及了效率的问题了,计算很多没用的梯度是浪费了很多资源的(时间,计算机内存)

参考资料

http://pytorch.org/docs/notes/autograd.html

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏三木的博客

插入法排序

何谓算法?算法就是计算机解决问题的方法和步骤。之所以强调计算机三个字,是因为计算机处理问题的方式和我们人类解决问题的方式有所不同。比如,在电视剧《宫》里看到一个...

1805
来自专栏小小挖掘机

使用Tensorflow实现数组的部分替换

简单描述一下场景:对于一个二维的整型张量,假设每一行是一堆独立的数,但是对于每一行的数,都有一个设定好的最小值的。我们需要做的是,对于每一行,找到第一次小于最小...

1322
来自专栏数据结构与算法

12:分数求和

12:分数求和 总时间限制: 1000ms 内存限制: 65536kB描述 输入n个分数并对他们求和,并用最简形式表示。所谓最简形式是指:分子分母的最大公约...

3203
来自专栏机器学习和数学

[ Tensorflow]Tensorflow Reduction operations

reduce系列在平时工程中是经常使用的,其中reduce_sum是使用最频繁的一个。主要用在计算loss的时候,当我们定义好loss之后,我们一般要求loss...

3194
来自专栏程序员宝库

LCS 算法:Javascript 最长公共子序列

作者:司徒正美 链接:https://segmentfault.com/a/1190000012864957 最长公共子序列(Longest Common Su...

39610
来自专栏mathor

matlab—数值微积分

574
来自专栏人工智能LeadAI

讨厌算法的程序员 1 | 插入排序

什么是算法 在说插入排序之前,我们了解下《算法导论》对算法的从两种不同角度的定义。 一般性解释: 算法是定义良好的计算过程,它取一个或一组值作为输入,并产生出一...

2757
来自专栏coder修行路

《深入理解计算机系统》阅读笔记--信息的表示和处理(下)

本应该之前整理好的,又拖到现在,不管怎么样继续坚持看下去,从二章开始就越来越不好理解了

563
来自专栏深度学习那些事儿

pytorch中autograd以及hook函数详解

pytorch中的Autograd mechanics(自动求梯度机制)是实现前向以及后向反馈运算极为重要的一环,pytorch官方专门针对这个机制进行了一个版...

1635
来自专栏数据小魔方

R语言可视化——面积(区域)图及其美化

今天要跟大家分享的是面积图,也就是经常提到的区域图。 本例选择自制数据集: head(data5) ? ggplot(data,aes(x,y))+geom_a...

2663

扫码关注云+社区