前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Pytorch有什么节省内存(显存)的小技巧?

Pytorch有什么节省内存(显存)的小技巧?

作者头像
zenRRan
发布2019-10-28 17:32:43
2.1K0
发布2019-10-28 17:32:43
举报

编辑:忆臻

https://www.zhihu.com/question/341336919

本文仅作为学术分享,如果侵权,会删文处理

来自:机器学习算法与自然语言处理

Pytorch有什么节省内存(显存)的小技巧?

作者:Lyken https://www.zhihu.com/question/274635237/answer/755102181

咦,大家都没看过陈天奇的 Training Deep Nets with Sublinear Memory Cost 吗?

训练 CNN 时,Memory 主要的开销来自于储存用于计算 backward 的 activation,一般的 workflow 是这样的

对于一个长度为 N 的 CNN,需要 O(N) 的内存。这篇论文给出了一个思路,每隔 sqrt(N) 个 node 存一个 activation,中需要的时候再算,这样显存就从 O(N) 降到了 O(sqrt(N))。

对于越深的模型,这个方法省的显存就越多,且速度不会明显变慢。

PyTorch 我实现了一版,有兴趣的同学可以来试试 https://github.com/Lyken17/pyto

作者:郑哲东 https://www.zhihu.com/question/274635237/answer/573633662

在不修改网络结构的情况下, 有如下操作:

  1. 同意 Jiaming , 尽可能使用inplace操作, 比如relu 可以使用 inplace=True 。 一个简单的使用方法,如下:
代码语言:javascript
复制
def inplace_relu(m):
    classname = m.__class__.__name__
    if classname.find('ReLU') != -1:
        m.inplace=True
model.apply(inplace_relu)

2.进一步,比如ResNet 和 DenseNet 可以将 batchnorm 和relu打包成inplace,在bp时再重新计算。使用到了pytorch新的checkpoint特性,有以下两个代码。由于需要重新计算bn后的结果,所以会慢一些。

  • gpleiss/efficient_densenet_pytorch
  • mapillary/inplace_abn

3. 每次循环结束时 删除 loss,可以节约很少显存,但聊胜于无。可见如下issue

Tensor to Variable and memory freeing best practices

4. 使用float16精度混合计算。我用过

NVIDIA英伟达

apex,很好用,可以节约将近50%的显存,但是要小心一些不安全的操作如 mean和sum,溢出fp16。

NVIDIA/apex

补充:最近我也尝试在我CVPR19的GAN模型中加入fp16的训练,可以从15G的显存需求降到约10G,这样大多数1080Ti等较为常见的显卡就可以训练了。欢迎大家star一波 https://github.com/NVlabs/DG-Net

5. 对于不需要bp的forward,如validation 请使用 torch.no_grad , 注意model.eval() 不等于 torch.no_grad() 请看如下讨论。

'model.eval()' vs 'with torch.no_grad()'

6. torch.cuda.empty_cache() 这是del的进阶版,使用nvidia-smi 会发现显存有明显的变化。但是训练时最大的显存占用似乎没变。大家可以试试。

How can we release GPU memory cache?

另外,会影响精度的骚操作还有:

把一个batchsize=64分为两个32的batch,两次forward以后,backward一次。但会影响 batchnorm等和batchsize相关的层。

作者:GaryLIU https://www.zhihu.com/question/274635237/answer/574193034

一般呢,神经网络显存的占用可以简单分为这三部分

  1. 网络模型自身参数占用的显存。
  2. 模型计算时(包括forward/backward/optimizer)所产生的中间变量或参数也有占用显存。
  3. 编程框架自身一些额外的开销。

依据个人一些小经验,改变网络结构和不改变其结构的节省显存的方法有:

  • 减小Batch-size(这哪门子算trick,哈哈,- -!)
  • 出自https://oldpan.me/archives/how-to-use-memory-pytorch,牺牲计算速度减少显存用量,将计算过程分为两半,先计算一半模型的结果,保存中间结果再计算后面一半的模型。如下
代码语言:javascript
复制
# 输入
input = torch.rand(1, 10)
# 假设我们有一个非常深的网络
layers = [nn.Linear(10, 10) for _ in range(1000)]
model = nn.Sequential(*layers)
output = model(input)

### 可进行如下更改
# 首先设置输入的input=>requires_grad=True
# 如果不设置可能会导致得到的gradient为0
input = torch.rand(1, 10, requires_grad=True)
layers = [nn.Linear(10, 10) for _ in range(1000)]


# 定义要计算的层函数,可以看到我们定义了两个
# 一个计算前500个层,另一个计算后500个层
def run_first_half(*args):
    x = args[0]
    for layer in layers[:500]:
        x = layer(x)
    return x

def run_second_half(*args):
    x = args[0]
    for layer in layers[500:-1]:
        x = layer(x)
    return x

# 我们引入新加的checkpoint
from torch.utils.checkpoint import checkpoint

x = checkpoint(run_first_half, input)
x = checkpoint(run_second_half, x)
# 最后一层单独调出来执行
x = layers[-1](x)
x.sum.backward()  # 这样就可以了
  • 使用pooling,减小特征图的size。
  • 减少全连接层的使用。
  • relu(inplace=true),inplace_abn
  • 使用半精度float16。
  • optimizer的变换使用,理论上,sgd<momentum<adam,可以从计算公式中看出有额外的中间变量。
  • Depthwise Convolution。
  • 暂时想到这些,最后贴一张模型大小和准确率的图,忘记是哪篇paper了,侵删
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-10-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Pytorch有什么节省内存(显存)的小技巧?
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档