pytorch学习笔记(二):gradient

gradient

BP的时候,pytorch是将Variable的梯度放在Variable对象中的,我们随时都可以使用Variable.grad得到对应Variablegrad。刚创建Variable的时候,它的grad属性是初始化为0.0的(0.2 版本已经是 打印的结果是 None。)。

import torch
from torch.autograd import Variable
w1 = Variable(torch.Tensor([1.0,2.0,3.0]),requires_grad=True)#需要求导的话,requires_grad=True属性是必须的。
w2 = Variable(torch.Tensor([1.0,2.0,3.0]),requires_grad=True)
print(w1.grad) # 0.2 版本打印的是 None
print(w2.grad) # 0.2 版本打印的是 None
Variable containing:
 0
 0
 0
[torch.FloatTensor of size 3]

Variable containing:
 0
 0
 0
[torch.FloatTensor of size 3]

从下面这两段代码可以看出,使用d.backward()Variable的梯度的时候,Variable.grad是累加的即: Variable.grad=Variable.grad+new_grad

d = torch.mean(w1)
d.backward()
w1.grad
Variable containing:
 0.3333
 0.3333
 0.3333
[torch.FloatTensor of size 3]
d.backward()
w1.grad
Variable containing:
 0.6667
 0.6667
 0.6667
[torch.FloatTensor of size 3]

既然累加的话,那我们如何置零呢?

w1.grad.data.zero_()
w1.grad
Variable containing:
 0
 0
 0
[torch.FloatTensor of size 3]

通过上面的方法,就可以将grad置零。通过打印出来的信息可以看出,w1.grad其实是Variable。现在可以更清楚的理解一下VariableTensor之间的关系,上篇博客已经说过,VariableTensor的一个wrapper,那么到底是什么样的wrapper呢?从目前的掌握的知识来看,一个是保存weightsTensor,一个是保存gradVariableVariable的一些运算,实际上就是里面的Tensor的运算。 pytorch中的所有运算都是基于Tensor的,Variable只是一个WrapperVariable的计算的实质就是里面的Tensor在计算。Variable默认代表的是里面存储的Tensorweights)。理解到这,我们就可以对grad进行随意操作了。

# 获得梯度后,如何更新
learning_rate = 0.1
#w1.data -= learning_rate * w1.grad.data 与下面式子等价
w1.data.sub_(learning_rate*w1.grad.data)# w1.data是获取保存weights的Tensor

这里更新的时候为什么要用Tensor更新,为什么不直接用VariableVariable更多是用在feedforward中的,因为feedforward是需要记住各个Tensor之间联系的,这样,才能正确的bpTensor不会记录路径。而且,如果使用Variable操作的话,就会造成循环图了(猜测)。

torch.optim

如果每个参数的更新都要w1.data.sub_(learning_rate*w1.grad.data),那就比较头疼了。还好,pytorch为我们提供了torch.optim包,这个包可以简化我们更新参数的操作。

import torch.optim as optim
# create your optimizer
optimizer = optim.SGD(net.parameters(), lr = 0.01)

# in your training loop:
for i in range(steps):
  optimizer.zero_grad() # zero the gradient buffers,必须要置零
  output = net(input)
  loss = criterion(output, target)
  loss.backward()
  optimizer.step() # Does the update

注意:torch.optim只用于更新参数,不care梯度的计算。

关于 backward()

backward(gradient=None, retain_variables=False) 参数: gradient (Tensor) – Gradient of the differentiated function w.r.t. the data. Required only if the data has more than one element

z.backward(gradient=grads)

上面代码应该怎么解释呢?

对于 retain_variables:

import torch
from torch.autograd import Variable
w1 = Variable(torch.Tensor([1.0,2.0,3.0]),requires_grad=True)#需要求导的话,requires_grad=True属性是必须的。
w2 = Variable(torch.Tensor([1.0,2.0,3.0]),requires_grad=True)

z = w1*w2+w1 # 第二次BP出现问题就在这,不知道第一次BP之后销毁了啥。
res = torch.mean(z)
res.backward() #第一次求导没问题
res.backward() #第二次BP会报错,但使用 retain_variables=True,就好了。
# Trying to backward through the graph second time, but the buffers have already been 
#freed. Please specify retain_variables=True when calling backward for the first time
  • 这里也可以看出,backward 这个方法也是 释放一些资源的 的一个标志,如果不需要 backward 的话,一定要记得设置 网络 为 eval

其他

这里来测试一下只使用部分 Variable 求出来的 loss对于原Variable求导得到的梯度是什么样的。

import torch
import torch.cuda as cuda
from torch.autograd import Variable
w1 = Variable(cuda.FloatTensor(2,3), requires_grad=True)
res = torch.mean(w1[1])# 只用了variable的第二行参数
res.backward()
print(w1.grad)
Variable containing:
 0.0000  0.0000  0.0000
 0.3333  0.3333  0.3333
[torch.cuda.FloatTensor of size 2x3 (GPU 0)]

看结果和直觉是一样的。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CreateAMind

keras doc 8 BatchNormalization

该层在每个batch上将前一层的激活值重新规范化,即使得其输出数据的均值接近0,其标准差接近1

1555
来自专栏人工智能LeadAI

pytorch入门教程 | 第二章:Autograd

autograd自动微分 假如我们有一个向量x=(1,1)当成input,经过一系列运算得到了output变量y,如下图所示: ? 如图所示,向量x经过与4和自...

37412
来自专栏蜉蝣禅修之道

Levenshtein distance最小编辑距离算法实现

4504
来自专栏Leetcode名企之路

【Leetcode】64. 最小路径和

给定一个包含非负整数的 m x n 网格,请找出一条从左上角到右下角的路径,使得路径上的数字总和为最小。

1021
来自专栏Java Web

最长公共子序列问题

问题描述: 求两个字符序列的公共最长子序列。 ---- 最长公共子串 在回到子序列问题之前,先来了解一下子串的问题。 例如,HISH和FISH两个字符序列的公...

3284
来自专栏Python小屋

Python+KNN算法判断单词相似度小案例

本文代码用于判断待测单词与哪个候选单词最接近,判断标准为字母出现频次(直方图)最接近,只考虑了不小心的拼写错误,而没有考虑故意的拼写错误,例如故意把god写成d...

3544
来自专栏机器之心

教程 | 入门Python神经机器翻译,这是一篇非常精简的实战指南

传统意义上来说,机器翻译一般使用高度复杂的语言知识开发出的大型统计模型,但是近来很多研究使用深度模型直接对翻译过程建模,并在只提供原语数据与译文数据的情况下自动...

2301
来自专栏数说工作室

SAS里的平行世界 | 【SAS Says · 扩展篇】IML:1.入门

本节目录: 1. IML基本语句 2. 标量、向量与矩阵 (1)定义标量 (2)定义向量 (3)定义矩阵 3. 矩阵的元素运算 (1...

3776
来自专栏漫漫深度学习路

pytorch 学习笔记(一)

pytorch是一个动态的建图的工具。不像Tensorflow那样,先建图,然后通过feed和run重复执行建好的图。相对来说,pytorch具有更好的灵活性。...

4086
来自专栏互联网大杂烩

算法岗面试

快速排序由于排序效率在同为O(N*logN)的几种排序方法中效率较高,因此经常被采用,再加上快速排序思想----分治法也确实实用,因此很多软件公司的笔试面试,包...

762

扫码关注云+社区