前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >深度学习中GPU和显存分析

深度学习中GPU和显存分析

作者头像
小白学视觉
发布于 2025-03-24 06:11:01
发布于 2025-03-24 06:11:01
12200
代码可运行
举报
运行总次数:0
代码可运行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
点击上方“小白学视觉”,选择加"星标"或“置顶”

编者荐语

显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。显存可以看成是空间,类似于内存。GPU计算单元类似于CPU中的核,用来进行数值计算。

深度学习最吃硬件,耗资源,在本文,我将来科普一下在深度学习中:

  • 何为“资源”
  • 不同操作都耗费什么资源
  • 如何充分的利用有限的资源
  • 如何合理选择显卡

并纠正几个误区:

  • 显存和GPU等价,使用GPU主要看显存的使用?
  • Batch Size 越大,程序越快,而且近似成正比?
  • 显存占用越多,程序越快?
  • 显存占用大小和batch size大小成正比?

0 预备知识

nvidia-smi是Nvidia显卡命令行管理套件,基于NVML库,旨在管理和监控Nvidia GPU设备。

nvidia-smi的输出

这是nvidia-smi命令的输出,其中最重要的两个指标:

  • 显存占用
  • GPU利用率

显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。

这里推荐一个好用的小工具:gpustat,直接pip install gpustat即可安装,gpustat基于nvidia-smi,可以提供更美观简洁的展示,结合watch命令,可以动态实时监控GPU的使用情况。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
watch --color -n1 gpustat -cpu

gpustat 输出

显存可以看成是空间,类似于内存。

  • 显存用于存放模型,数据
  • 显存越大,所能运行的网络也就越大

GPU计算单元类似于CPU中的核,用来进行数值计算。衡量计算量的单位是flop: the number of floating-point multiplication-adds,浮点数先乘后加算一个flop。计算能力越强大,速度越快。衡量计算能力的单位是flops:每秒能执行的flop数量

1. 显存分析

1.1 存储指标

KMGT是以1024为底,而KBMBGBTB以1000为底。不过一般来说,在估算显存大小的时候,我们不需要严格的区分这二者。

在深度学习中会用到各种各样的数值类型,数值类型命名规范一般为TypeNum,比如Int64、Float32、Double64。

  • Type:有Int,Float,Double等
  • Num: 一般是 8,16,32,64,128,表示该类型所占据的比特数目

常用的数值类型如下图所示:

常用的数值类型

其中Float32 是在深度学习中最常用的数值类型,称为单精度浮点数,每一个单精度浮点数占用4Byte的显存。

举例来说:有一个1000x1000的 矩阵,float32,那么占用的显存差不多就是

2x3x256x256的四维数组(BxCxHxW)占用显存为:24M

1.2 神经网络显存占用

神经网络模型占用的显存包括:

  • 模型自身的参数
  • 模型的输出

举例来说,对于如下图所示的一个全连接网络(不考虑偏置项b)

模型的输入输出和参数

模型的显存占用包括:

  • 参数:二维数组 W
  • 模型的输出:二维数组 Y

输入X可以看成是上一层的输出,因此把它的显存占用归于上一层。

这么看来显存占用就是W和Y两个数组?

并非如此!!!

下面细细分析。

1.2.1 参数的显存占用

只有有参数的层,才会有显存占用。这部份的显存占用和输入无关,模型加载完成之后就会占用。

有参数的层主要包括:

  • 卷积
  • 全连接
  • BatchNorm
  • Embedding层
  • ... ...

无参数的层:

  • 多数的激活层(Sigmoid/ReLU)
  • 池化层
  • Dropout
  • ... ...

更具体的来说,模型的参数数目(这里均不考虑偏置项b)为:

  • Linear(M->N): 参数数目:M×N
  • Conv2d(Cin, Cout, K): 参数数目:Cin × Cout × K × K
  • BatchNorm(N): 参数数目:2N
  • Embedding(N,W): 参数数目:N × W

参数占用显存 = 参数数目×n

n = 4 :float32

n = 2 : float16

n = 8 : double64

在PyTorch中,当你执行完model=MyGreatModel().cuda()之后就会占用相应的显存,占用的显存大小基本与上述分析的显存差不多(会稍大一些,因为其它开销)。

1.2.2 梯度与动量的显存占用

举例来说, 优化器如果是SGD:

这时候还需要保存动量, 因此显存x3

如果是Adam优化器,动量占用的显存更多,显存x4

总结一下,模型中与输入无关的显存占用包括:

  • 参数 W
  • 梯度 dW(一般与参数一样)
  • 优化器的动量(普通SGD没有动量,momentum-SGD动量与梯度一样,Adam优化器动量的数量是梯度的两倍)

1.2.3 输入输出的显存占用

这部份的显存主要看输出的feature map 的形状。

feature map

比如卷积的输入输出满足以下关系:

据此可以计算出每一层输出的Tensor的形状,然后就能计算出相应的显存占用。

模型输出的显存占用,总结如下:

  • 需要计算每一层的feature map的形状(多维数组的形状)
  • 模型输出的显存占用与 batch size 成正比
  • 需要保存输出对应的梯度用以反向传播(链式法则)
  • 模型输出不需要存储相应的动量信息(因为不需要执行优化)

深度学习中神经网络的显存占用,我们可以得到如下公式:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用

可以看出显存不是和batch-size简单的成正比,尤其是模型自身比较复杂的情况下:比如全连接很大,Embedding层很大

另外需要注意:

  • 输入(数据,图片)一般不需要计算梯度
  • 神经网络的每一层输入输出都需要保存下来,用来反向传播,但是在某些特殊的情况下,我们可以不要保存输入。比如ReLU,在PyTorch中,使用nn.ReLU(inplace = True) 能将激活函数ReLU的输出直接覆盖保存于模型的输入之中,节省不少显存。感兴趣的读者可以思考一下,这时候是如何反向传播的(提示:y=relu(x) -> dx = dy.copy();dx[y<=0]=0)

1.3 节省显存的方法

在深度学习中,一般占用显存最多的是卷积等层的输出,模型参数占用的显存相对较少,而且不太好优化。

节省显存一般有如下方法:

  • 降低batch-size
  • 下采样(NCHW -> (1/4)*NCHW)
  • 减少全连接层(一般只留最后一层分类用的全连接层)

2 计算量分析

计算量的定义,之前已经讲过了,计算量越大,操作越费时,运行神经网络花费的时间越多。

2.1 常用操作的计算量

常用的操作计算量如下:

  • 全连接层:BxMxN , B是batch size,M是输入形状,N是输出形状。

卷积的计算量分析

  • ReLU的计算量:BHWC

2.2 AlexNet 分析

AlexNet的分析如下图,左边是每一层的参数数目(不是显存占用),右边是消耗的计算资源

AlexNet分析

可以看出:

  • 全连接层占据了绝大多数的参数
  • 卷积层的计算量最大

2.3 减少卷积层的计算量

今年谷歌提出的MobileNet,利用了一种被称为DepthWise Convolution的技术,将神经网络运行速度提升许多,它的核心思想就是把一个卷积操作拆分成两个相对简单的操作的组合。如图所示, 左边是原始卷积操作,右边是两个特殊而又简单的卷积操作的组合(上面类似于池化的操作,但是有权重,下面类似于全连接操作)。

Depthwise Convolution

这种操作使得:

  • 显存占用变多(每一步的输出都要保存

2.4 常用模型 显存/计算复杂度/准确率

去年一篇论文(http://link.zhihu.com/?target=https%3A//arxiv.org/abs/1605.07678)总结了当时常用模型的各项指标,横座标是计算复杂度(越往右越慢,越耗时),纵座标是准确率(越高越好),圆的面积是参数数量(不是显存占用)。左上角我画了一个红色小圆,那是最理想的模型的的特点:快,效果好,占用显存小。

常见模型计算量/显存/准确率

3 总结

3.1 建议

  • 时间更宝贵,尽可能使模型变快(减少flop)
  • 显存占用不是和batch size简单成正比,模型自身的参数及其延伸出来的数据也要占据显存
  • batch size越大,速度未必越快。在你充分利用计算资源的时候,加大batch size在速度上的提升很有限

尤其是batch-size,假定GPU处理单元已经充分利用的情况下:

  • 增大batch size能增大速度,但是很有限(主要是并行计算的优化)
  • 增大batch size能减缓梯度震荡,需要更少的迭代优化次数,收敛的更快,但是每次迭代耗时更长。
  • 增大batch size使得一个epoch所能进行的优化次数变少,收敛可能变慢,从而需要更多时间才能收敛(比如batch_size 变成全部样本数目)。

3.2 关于显卡购买

一般显卡购买渠道就是京东自营、淘宝等电商平台,线下实体店也可以购买。 正常时期,同款显卡,京东自营的价格会略高于淘宝,主要是京东自营的售后比淘宝更好,更放心,而特殊时期,比如现在部分型号淘宝和京东自营的价格比较悬殊,我建议是淘宝购买,如果价格相差不大,优先京东自营购买。像微星不支持个人送保,我不建议在淘宝和拼多多等渠道购买,售后不方便,建议天猫旗舰店及京东自营等有售后保障的渠道购买,支持个人送保的品牌在哪里买都可以。

5月推荐入手价

本文都是针对单机单卡的分析,分布式的情况会和这个有所区别。在分析计算量的时候,只分析了前向传播,反向传播计算量一般会与前向传播有细微的差别。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小白学视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
挑战性能极限小显卡大作为,教你如何在有限资源下运行大型深度学习模型,GPU显存估算并高效利用全攻略!
“10b”、“13b”、“70b” 等术语通常指的是大型神经网络模型的参数数量。其中的 “b” 代表 “billion”,也就是十亿。表示模型中的参数量,每个参数用来存储模型的权重和偏差等信息。例如:
汀丶人工智能
2024/03/30
4.2K1
挑战性能极限小显卡大作为,教你如何在有限资源下运行大型深度学习模型,GPU显存估算并高效利用全攻略!
如何计算显存的占用,常常遇到out of memory?
最近一次组会上,师兄点评一篇文章显存占用过多,突然发现还不知道如何具体的计算显存,只好去学习一下。
AI深度学习求索
2018/12/11
6.8K0
浅谈深度学习:如何计算模型以及中间变量的显存占用大小
博客原文:https://oldpan.me/archives/how-to-calculate-gpu-memory
老潘
2018/06/08
3.3K0
浅谈深度学习:如何计算模型以及中间变量的显存占用大小
Pytorch有什么节省内存(显存)的小技巧?
作者:Lyken https://www.zhihu.com/question/274635237/answer/755102181
zenRRan
2019/10/28
2.3K0
Pytorch有什么节省内存(显存)的小技巧?
【动手学深度学习】卷积神经网络(AlexNet)的研究详情
启动jupyter notebook,使用新增的pytorch环境新建ipynb文件,为了检查环境配置是否合理,输入import torch以及torch.cuda.is_available() ,若返回TRUE则说明研究环境配置正确,若返回False但可以正确导入torch则说明pytorch配置成功,但研究运行是在CPU进行的,结果如下:
SarPro
2024/06/14
2880
【动手学深度学习】卷积神经网络(AlexNet)的研究详情
深度学习PyTorch,TensorFlow中GPU利用率较低,CPU利用率很低,且模型训练速度很慢的问题总结与分析
(ps:对于如何在Intel CPU,ARM架构CPU,以及Jetson TensorRT上部署深度学习模型,以及部署遇到的速度问题,该如何解决。请查看我的另外一篇文章。如何定制化编译Pytorch,TensorFlow,使得CNN模型在CPU,GPU,ARM架构和X86架构,都能快速运行,需要对每一个平台,有针对性的调整。如何做到最大化加速深度学习在不同平台部署性能。请看我的这篇文章。)
全栈程序员站长
2022/07/01
6.1K1
深度学习PyTorch,TensorFlow中GPU利用率较低,CPU利用率很低,且模型训练速度很慢的问题总结与分析
【神经网络架构搜索】ProxylessNAS 直接在ImageNet搜索
【GiantPandaCV导语】这篇是MIT韩松实验室发布的文章,是第一个直接在ImageNet上进行搜索的NAS算法,并且提出了直接在目标硬件上对latency进行优化的方法。相比于同期算法NASNet、MnasNet等,搜索代价降低了200倍。
BBuf
2021/07/01
8170
【神经网络架构搜索】ProxylessNAS 直接在ImageNet搜索
讲解pytorch 优化GPU显存占用,避免out of memory
在深度学习任务中,对于复杂的神经网络和大规模的训练数据,显存占用成为一个常见的问题。当我们的模型和数据超出GPU显存的限制时,就会出现"out of memory"的错误。为了解决这个问题,我们可以采取一些优化策略来降低显存的占用。
大盘鸡拌面
2023/12/26
7K0
解决PyTorch中的`CUDA out of memory`错误
大家好,我是默语,擅长全栈开发、运维和人工智能技术。今天我们将深入探讨如何解决PyTorch中常见的CUDA out of memory错误。这个问题在处理大规模深度学习模型时经常出现,理解并解决它对于提升模型训练效率至关重要。关键词:PyTorch、CUDA、内存不足、深度学习、错误解决。
默 语
2024/11/22
1.2K0
【现代深度学习技术】现代卷积神经网络01:深度卷积神经网络(AlexNet)
深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。 【GitCode】专栏资源保存在我的GitCode仓库:https://gitcode.com/Morse_Chen/PyTorch_deep_learning。
Francek Chen
2025/03/13
1920
【现代深度学习技术】现代卷积神经网络01:深度卷积神经网络(AlexNet)
【机器学习实战】从零开始深度学习(通过GPU服务器进行深度学习)
0.1. 利用GPU加速深度学习   疫情期间没有办法用实验室的电脑来跑模型,用领取的腾讯云实例来弄刚刚好。发现如果没有GPU来跑的话真的是太慢了,非常推荐利用GPU加速深度学习的训练速度。     如果采用GPU的话,训练函数train_model(*)中数据的输入要改变一下,也就是需要将数据放在GPU上
汉堡888
2022/05/03
8.6K0
【机器学习实战】从零开始深度学习(通过GPU服务器进行深度学习)
再次浅谈Pytorch中的显存利用问题(附完善显存跟踪代码)
之前在浅谈深度学习:如何计算模型以及中间变量的显存占用大小和如何在Pytorch中精细化利用显存中我们已经谈论过了平时使用中显存的占用来自于哪里,以及如何在Pytorch中更好地使用显存。在这篇文章中,我们借用Pytorch-Memory-Utils这个工具来检测我们在训练过程中关于显存的变化情况,分析出我们如何正确释放多余的显存。
老潘
2023/10/19
1.7K0
再次浅谈Pytorch中的显存利用问题(附完善显存跟踪代码)
【深度学习】Python使用指定gpu运行代码
在大型机构分配的服务器集群中,需要使用GPU的程序默认都会在第一张卡上进行,如果第一张卡倍别人占用或者显存不够的情况下,程序就会报错说没有显存容量,所以能够合理地利用GPU资源能帮助你更快更好地跑出实验效果。 1、指定使用GPU0运行脚本(默认是第一张显卡, 0代表第一张显卡的id,其他的以此类推) 第一种方式:
Twcat_tree
2023/10/30
6.2K1
明月深度学习实践001:LeNet网络入门学习
之前进行深度学习建模时,基本就是套模型,微调参数,基本也能解决问题。不过最近进行OCR识别,大模型效果其实已经不错了,但是还是有些比较明显的场景下却是没有识别到,而大模型本身也比较笨重,基于上面去调可能效果未必好,于是想建立一个简单的模型来进行识别,因为那些识别不到的不少是一些单独的在单元格里的数字。
明月AI
2021/10/28
3630
明月深度学习实践001:LeNet网络入门学习
讲解gpu显存查看 nvidia-smi实时刷新
在深度学习和计算机图形学等领域,使用GPU进行加速已经成为常见的做法。然而,GPU的显存是一种有限的资源,我们需要时刻关注显存的使用情况,以避免显存溢出导致的程序错误。NVIDIA提供了一个命令行工具nvidia-smi,能够实时查看GPU的状态和显存使用情况。本文将介绍如何使用nvidia-smi命令在终端实时刷新GPU显存。
大盘鸡拌面
2023/12/07
7K0
明月深度学习实践002:关于模型训练你应该关注的内容
前面我们已经建立了一个简单的LeNet模型,已经训练它了来做手写数字识别,基于mnist数据集上的效果还是不错的。今天接着写一些模型训练相关的内容。
明月AI
2021/10/28
4980
明月深度学习实践002:关于模型训练你应该关注的内容
Linux中如何管理Nvidia GPU卡
由于测试环境使用的是NVIDIA的显卡,这里直接通过lspci命令即可查询具体显卡信息
赵智勇
2019/08/13
14.7K0
如何修复TensorFlow中的`ResourceExhaustedError
大家好,我是默语,擅长全栈开发、运维和人工智能技术。在本篇博客中,我们将深入探讨如何修复TensorFlow中的ResourceExhaustedError。这个错误通常在处理大规模数据集或复杂模型时出现,了解并解决它对顺利进行模型训练非常重要。关键词:TensorFlow、ResourceExhaustedError、内存不足、深度学习、错误解决。
默 语
2024/11/22
3420
如何分析机器学习中的性能瓶颈
软件性能分析是达到系统最佳效能的关键,数据科学和机器学习应用程序也是如此。在 GPU 加速深度学习的时代,当剖析深度神经网络时,必须了解 CPU、GPU,甚至是可能会导致训练或推理变慢的内存瓶颈
GPUS Lady
2021/05/07
2.6K0
深度总结,带你玩转 NVIDIA GPU
大家好,我是三十一[0],最近北京也出现疫情了,昨晚公司大楼临时管控,测核酸折腾到小一点才到家。前两天的抢菜、囤菜,加上这次的管控经历,这次真有些慌了。。。
程序员荒生
2022/05/19
1.4K0
推荐阅读
相关推荐
挑战性能极限小显卡大作为,教你如何在有限资源下运行大型深度学习模型,GPU显存估算并高效利用全攻略!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验