专栏首页jonny的专栏Linux中如何管理Nvidia GPU卡
原创

Linux中如何管理Nvidia GPU卡

一. Linux中查看GPU的信息与使用情况

1.查看显卡信息

由于测试环境使用的是NVIDIA的显卡,这里直接通过lspci命令即可查询具体显卡信息

lspci | grep -i nvidia

lspci -v -s 00:06.0

“00:06.0”,这一个参数是总线编号,第二个是插槽编号,第三个是功能编号,它们都是十六进制的数字。

2.查看显存以及GPU的使用情况

Nvidia自带一个命令行工具可以查看显存的使用情况:nvidia-smi

参数解释:

Fan:显示风扇转速,数值在0到100%之间,是计算机的期望转速,如果计算机不是通过风扇冷却或者风扇坏了,显示出来就是N/A;

Temp:显卡内部的温度,单位是摄氏度;

Perf:表征性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能;

Pwr:能耗表示;

Bus-Id:涉及GPU总线的相关信息;

Disp.A:是Display Active的意思,表示GPU的显示是否初始化;

Memory Usage:显存的使用率;

Volatile GPU-Util:浮动的GPU利用率;

Compute M:计算模式;

下边的Processes显示每块GPU上每个进程所使用的显存情况,上述测试环境没有,可参考它图如下:

3.周期性的输出显卡的使用情况

可以参考如下命令:

watch -n 5 nvidia-smi

命令行参数-n后边跟的是执行命令的周期,以s为单位。

二. 常用管理命令

1.列出所有可用的Nvidia设备

nvidia-smi -L

2.列出每个GPU卡的详细信息

nvidia-smi --query-gpu=index,name,uuid,serial --format=csv

3.查询某个GPU卡的详细信息(指定GPU卡的id,只截图一部分)

nvidia-smi -i 0 -q

4.要以1秒的更新间隔监控GPU的总体使用情况

nvidia-smi dmon

5.要以1秒的更新间隔监视每个进程的GPU使用情况

nvidia-smi pmon

6.加上-pm参数可设置持久模式:0/禁用,1/启用

nvidia-smi -pm 1

7.加上-e参数可以切换ECC支持:0/禁用,1/启用

nvidia-smi -e 1

8. 加上-r参数可以重启某个GPU卡(0是GPU卡的序号)

nvidia-smi -r -i 0

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Linux离线迁移数据盘到腾讯云的云硬盘

    qemu-img convert -f raw -O qcow2 /dev/nvme1n1 /mnt/data-10G.qcow2

    赵智勇
  • AWS-WinServer2012离线迁移到腾讯云

    在桌面输入快捷键win+r打开运行窗口,然后输入 diskmgmt.msc,按 Enter,打开 “磁盘管理”。

    赵智勇
  • winserver离线迁移数据盘到腾讯云的云硬盘

    在源端服务器内下载链接制作镜像工具,下载链接:https://download.sysinternals.com/files/Disk2vhd.zip

    赵智勇
  • Windows网络小工具之pstools:psping、pslist……

    这2套工具的受众广泛、稳定性久经考验,sysinternals已被微软收购,可以认为是微软出品

    shawyang
  • 推荐5种让数据库快的飞起的GPU加速产品

    GPU承诺会彻底改变大数据分析领域,从当前来看,这并不是虚言,当我们数据量达到一定级别的时候,我们一定会转向使用GPU。大多数的数学密集型应用都包含机器学习框架...

    GPUS Lady
  • 【深度分析】深度学习选GPU,RTX 20系列值不值得?

    深度学习常被戏谑为“炼丹术”,那么,GPU于深度学习研究人员而言就是不可或缺的“炼丹炉”。

    新智元
  • GPU编程(二): GPU架构了解一下!

    http://html.rhhz.net/tis/html/20150101.htm# http://hustcat.github.io/gpu-archit...

    sean_yang
  • 译文 | 与TensorFlow的第一次接触 第六章:并发

    第一版TensorFlow第一版发布于2015年11月,它可以运行在多台服务器的GPU上,同时并在其上面进行训练。2016年2月,更新版中增加了分布式与并发处理...

    用户1332428
  • 【GPU陷入价格战】谷歌云可抢占GPU降价40%,P100每小时不到3块钱

    新智元
  • 学界 | 中国香港浸会大学:四大分布式深度学习框架在GPU上的性能评测

    选自arXiv 作者:施少怀、褚晓文 机器之心编译 参与:陈韵竹、李泽南 随着深度学习应用不断进入商用化,各类框架在服务器端上的部署正在增多,可扩展性正逐渐成为...

    机器之心

扫码关注云+社区

领取腾讯云代金券