前言
1、我们将这次评测限制在Ubuntu上可用的工具。
2、有些工具包是Python的,为了不影响默认的Python安装,我们建议使用Python虚拟环境。案例给出的虚拟环境是Python 3.9。
第一步,执行以下命令:
$ python3 -m venv ~/ENV3
$ source ~/ENV3/bin/activate
$ pip install pip -U
要将其永久添加到启动中,请添加一行代码:
source ~/ENV3/bin/activate
到你的.bash_profile文件。
在你安装了Nvidia驱动程序之后,你会发现一个叫Nvidia-smi的程序。可以简单地称之为:
$ nvidia-smi
要定期更新,可以使用以下命令:
$ nvidia-smi -l 1
其中-l后面的参数指定更新之间的时间(秒)。为了不留痕,你还可以使用以下命令:
$ watch -n 1 nvidia-smi
nvitop
https://github.com/XuehaiPan/nvitop
nvitop也是一个类似top的工具,它的特点是可以同时监控多块GPU。这也是小编最喜爱的工具,安装很简单:
pip3 install --upgrade nvitop
以下是部分命令:
# Query status of all devices
$ nvitop -1 # or use `python3 -m nvitop -1`
# Specify query devices (by integer indices)
$ nvitop -1 -o 0 1 # only show <GPU 0> and <GPU 1>
# Only show devices in `CUDA_VISIBLE_DEVICES` (by integer indices or UUID strings)
$ nvitop -1 -ov
# Only show GPU processes with the compute context (type: 'C' or 'C+G')
$ nvitop -1 -c
gmonitor
https://github.com/mountassir/gmonitor
gmonitor是一个简单的GPU监控程序,用于监控内核、VRAM的使用情况、PCI-E和内存总线使用情况以及GPU的温度。
安装需要从源码开始build:
clone https://github.com/mountassir/gmonitor.git
cd gmonitor/
mkdir build
cd build
cmake ..
make
sudo make install
启动很简单:
gmonitor
glances
https://github.com/nicolargo/glances
glances是一个类似于‘top’的工具,除了GPU以为,它还能展示系统其他方面的信息。安装非常简单:
pip install py3nvml
sudo pip install glances[gpu]
启动命令也很简单:
$ glances
还可以通过以下参数设置不同的主题:
$ glances --theme-white
总结
我们展示了几种用于监视GPU的工具。发现这些工具在确保系统正常运行方面非常有用。特别是在显示工作负荷和温度,以及与卡交互的时候。虽然nvidia-smi是首选工具,但其他工具在可视化上面做的更加出色,例如,对于工作负载的展示。我们可以灵活的使用不同的工具,以便对GPU的运行状态有一个更直观和全面的了解。