GPU 云服务器 GPU 服务器监控告警配置及处理建议

监控与告警是保证 GPU 服务器高可靠性、高可用性和高性能的重要部分。创建 GPU 服务器时，默认免费开通腾讯云可观测平台。您可以通过 云服务器控制台 查看监控指标，详细说明请参见 云服务器监控指标。NVIDIA GPU 系列实例另外提供了监控 GPU 使用率，显存使用量，功耗以及温度等参数的能力。
GPU 云服务器监控指标告警订阅及处理建议。
1. GPU 云服务器监控指标查看
单台 GPU 云服务器监控指标查看
单击 GPU 实例 列表中的  
﻿
 监控图标， 访问 腾讯云控制台 GPU 实例的监控页面，查看 GPU 监控，移动鼠标到指标曲线上将显示对应 GPU 设备的 BDF 和监控数据。如下图所示：
﻿
多台 GPU 云服务器监控指标查看
登录 腾讯云可观测平台，左侧导航栏中选择 Dashboard ，进入 Dashboard 列表页。创建 Dashboard 后，在指标处选择 GPU/ 云服务器 /GPU 监控，单击您关注的指标，自定义监控面板进行多实例展示，如下图所示：
﻿
﻿
﻿
2. GPU 云服务器监控指标说明
GPU 云服务器各个监控指标含义如下所示：
指标英文名
指标中文名
指标说明
单位
采集方式
统计规则 [period, statType]
GpuMemTotal
GPU 内存总量
GPU 内存总量
MB
nvml
[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpumemusage
GPU 内存使用率
GPU 内存使用率
%
nvml
[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
GpuMemUsed
GPU 内存使用量
评估负载对显存占用
MB
nvml
﻿
[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpupowdraw
GPU 功耗使用量
GPU 功耗使用量
0
nvml
﻿
[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpupowlimit
GPU 功耗总量
GPU 功耗总量
0
nvml
﻿
[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpupowusage
GPU 功耗使用率
GPU 功耗使用率
%
nvml
﻿
[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gputemp
GPU 温度
评估 GPU 散热状态
0
nvml
﻿
[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpuutil
GPU 使用率
评估负载所消耗的计算能力，非空闲状态百分比
%
nvml
﻿
[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
GpuEncUtil
GPU 编码器使用率
GPU 编码器使用率
%
nvml
﻿
[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
GpuDecUtil
GPU 解码器使用率
GPU 解码器使用率
%
nvml
﻿
[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
3. GPU 云服务器监控指标告警配置
﻿腾讯云可观测平台 支持分析更丰富的 GPU 监控指标。您可登录 腾讯云可观测平台，左侧导航栏中选择告警配置，新建告警策略，监控类型选择云产品监控，策略类型选择云服务器 /GPU 监控告警，选择预期告警的 GPU 实例对象，触发条件选择手动配置。
﻿
﻿
﻿
GPU 云服务器监控支持 GPU 内存使用率，GPU 功耗使用率，GPU 使用率，GPU 温度，GPU 是否存在显存页需隔离，GPU 显存是否发生 UCE 等指标告警，可参考下图进行配置告警。
﻿
﻿
﻿
告警通知的配置参见 新建通知模板 文档，支持多种渠道通知。
4. GPU 云服务器告警处理建议
指标名称
建议告警阈值
描述
处理建议
GPU 功耗使用率
<=0
功耗小于0时可能功率出现Unknown Error 了，会影响 GPU 的正常使用。
﻿
执行 nvidia-smi 命令查看 GPU 的功率是否有 ERR 或 nvidia-smi -i  <target gpu> -q |grep "Power Draw" 是否为 Unknown Error，若存在该现象则尝试重启机器恢复及更新驱动观察。若重启无法恢复 提交工单 联系腾讯云支持。
GPU 温度
持续5分钟>80
当 GPU 温度过高时可能会导致 GPU SlowDown，影响业务性能。
可能负载过高导致 GPU 温度过高，可尝试重启实例恢复，若无法恢复 提交工单 联系腾讯云支持。
GPU 是否存在显存页需隔离
=1
安培以下架构 GPU 出现了 ECC ERROR，应用进程被 kill，GPU卡处于pending 状态。
执行 nvidia-smi -i  <target gpu> -q -d PAGE_RETIREMENT 命令查看是否有 GPU 卡处于 pending 状态，重置 GPU 卡或重启实例恢复。若重启无法恢复 提交工单 联系腾讯云支持。
GPU 显存是否发生 UCE
=1
安培及以上架构 GPU 出现了 ECC ERROR，应用进程被 kill，GPU卡处于pending 状态。
执行 nvidia-smi -i  <target gpu> -q -d ROW_REMAPPER 命令查看是否有 GPU 卡处于 Pending 状态，重置 GPU 卡或重启实例恢复。若重启无法恢复 提交工单 联系腾讯云支持。
GPU 内存使用率
仅保持观察
-
评估负载对显存占用。
GPU 使用率
仅保持观察
-
评估负载对 GPU 流处理器占用。
高性能计算集群 GPU 型实例 RDMA 监控指标告警订阅及处理建议
高性能计算集群以高性能云服务器为节点，通过 RDMA（Remote Direct Memory Access）互联，提供了高带宽和极低延迟的网络服务，大幅提升网络性能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。
1. 高性能计算集群 GPU 型实例 RDMA 监控查看
单台 GPU 服务器 RDMA 监控指标查看
1. 在 高性能计算集群 中选择单击集群 ID 或查看详情，可看到集群的 GPU 服务器实例详情。
﻿
2. 单击 GPU 实例 列表中的  
﻿
 监控图标， 访问 腾讯云控制台 GPU 实例的监控页面，查看 RDMA监控（仅支持分钟级以上粒度），移动鼠标到指标曲线上将显示实例对应 bond 的监控数据。如下图所示，当前支持 RDMA网卡发送带宽，RDMA 网卡接收带宽，RDMA 网卡出包量，RDMA 网卡入包量显示。
﻿
多台 GPU 服务器 RDMA 监控指标查看
多台实例 RDMA 监控可在云产品监控查看统计数据，您可以在云产品监控 -dashboard 中配置您需要的监控指标，操作步骤如下：
1. ﻿新建 Dashboard，新建图表，指标选择云服务器 -RDMA 监控。
﻿
2. 选择您需要监控的 RDMA 毫秒级统计指标。
﻿
3. 选择需要监控的高性能计算集群实例 ID。
﻿
4. 单击确定即可快速创建 Dashboard。
﻿
2. 高性能计算集群 GPU 型实例 RDMA 监控指标说明
高性能计算集群 GPU 型实例 RDMA 各个监控指标含义如下所示：
指标英文名
指标中文名
指标说明（非必填）
单位
统计粒度
RxHpbwAvg
毫秒级_RDMA 网卡接收带宽平均值
10秒内 RDMA 网卡接收带宽的毫秒级统计粒度平均值
Mbps
10s、60s、 300s、 3600s
RxHpbwMax
毫秒级_RDMA 网卡接收带宽最大值
10秒内 RDMA 网卡接收带宽的毫秒级统计粒度最大值
Mbps
10s、60s、 300s、 3600s
RxHpbwMin
毫秒级_RDMA 网卡接收带宽最小值
10秒内 RDMA 网卡接收带宽的毫秒级统计粒度最小值
Mbps
10s、60s、 300s、 3600s
RxHpbwP50
毫秒级_RDMA 网卡接收带宽50百分位值
10秒内从小到大 RDMA 网卡接收带宽的毫秒级统计粒度前50百分位数
Mbps
10s、60s、 300s、 3600s、 86400s
RxHpbwP90
毫秒级_RDMA 网卡接收带宽90百分位值
10秒内从小到大 RDMA 网卡接收带宽的毫秒级统计粒度前90百分位数
Mbps
10s、60s、 300s、 3600s
TxHpbwAvg
毫秒级_RDMA 网卡发送带宽平均值
10秒内 RDMA 网卡发送带宽的毫秒级统计粒度平均值
Mbps
10s、60s、 300s、 3600s
TxHpbwMax
毫秒级_RDMA 网卡发送带宽最大值
10秒内 RDMA 网卡发送带宽的毫秒级统计粒度最大值
Mbps
10s、60s、 300s、 3600s
TxHpbwMin
毫秒级_RDMA 网卡发送带宽最小值
10秒内 RDMA 网卡发送带宽的毫秒级统计粒度最小值
Mbps
10s、60s、 300s、 3600s
TxHpbwP50
毫秒级_RDMA 网卡发送带宽50百分位
10秒内从小到大 RDMA 网卡发送带宽毫秒级统计粒度前50百分位数
Mbps
10s、60s、 300s、 3600s
TxHpbwP90
毫秒级_RDMA 网卡发送带宽90百分位
10秒内从小到大 RDMA 网卡发送带宽毫秒级统计粒度前90百分位数
Mbps
10s、60s、 300s、 3600s
3. 高性能计算集群 GPU 型实例 RDMA 监控指标告警配置
1. 登录 腾讯云可观测平台，左侧导航栏中选择告警配置，新建告警策略，监控类型选择云产品监控，策略类型选择云服务器 /RDMA 监控，选择告警对象。
﻿
指标告警参考如下配置：
﻿
2. 告警通知可参见 新建通知模板 配置，支持多渠道通知。
配置完成后策略查看截图如下：
﻿
告警示例截图如下：
﻿
4. 高性能计算集群 GPU 型实例 RDMA 告警处理建议
监测指标
指标名
错误描述
正确配置值
处理策略
客户更正方式
设备
接线状况监测
link_detected
链路 down
1（1代表端口 up）
客户尝试软件恢复，如无法恢复，授权运维维修
ifconfig $ethname up
eth
ACS 开关
acs
ACS 开关配置错误
0（0代表关闭 ACS）
客户改正配置（需要重启机器）
bash /etc/acsctl_online.sh disable_acsctl
eth
RDMA_MTU 大小
active_mtu
RDMA 卡的 MTU配置错误（影响性能）
9100
客户更正配置即可
ifconfig $ethname mtu 9100
bond
ATS 开关
ats_enabled
ATS 开关配置错误
0（0代表关闭 ATS）
客户改正配置（需要重启机器）
// 关闭 ATS
for i in `lspci -d 15b3: | awk '{print $1}'`; do echo $i; mlxconfig -d $i -y s ATS_ENABLED=0; done  
﻿
// 重启之后确认状态
for i in `lspci -d 15b3: | awk '{print $1}'`; do echo $i; mlxconfig -d $i q | grep ATS_ENABLED; done
eth
bonding 模式
bonding_mode
bonding 模式配置错误
4（4代表双发模式）
客户更正配置即可
cd /usr/local/qcloud/rdma/; sh set_bonding.sh; sh dscp.sh
bond
dcqcn 使能
dcqcn_enable
dcqcn 未使能
11（两个1分别代表 rp和 np 的状态）
客户更正配置即可
echo 1 > /sys/class/net/$ethname/ecn/roce_rp/enable/5 
echo 1 > /sys/class/net/$ethname/ecn/roce_np/enable/5
eth
网卡混杂模式
eth_promisc
网卡误配为混杂模式
0（0代表非混杂模式）
客户更正配置即可
ifconfig $ethname -promisc
eth
流量类别
traffic_class
流量类别配置错误
160
客户更正配置即可
echo 160 > /sys/class/infiniband/$RDMA_name/tc/1/traffic_class
bond
q5 PFC 配置
q5_pfc_enabled
PFC 未使能，存在QOS ERROR
1（1代表 PFC 使能）
客户更正配置即可
mlnx_qos -i $ethname -f 0,0,0,0,0,1,0,0
eth
优先级信任状态
prio_trust_state
优先级信任状态配置错误
1（1代表 dscp）
客户更正配置即可
mlnx_qos -i $ethname --trust=dscp
eth
pcie 速率
max_link_speed
PCIE GEN 配置错误
16
客户更正配置即可
尝试重启实例恢复，若无法恢复提交工单腾讯云支持
eth
pcie 宽度
max_link_width
PCIE width 配置错误
16
客户更正配置即可
尝试重启实例恢复，若无法恢复提交工单腾讯云支持
eth
IB 设备状态
link_state
bond 口下两个 eth口全部 down
1（1代表 bond 口up）
客户尝试软件恢复，如无法恢复，授权运维维修
ifconfig $ethname up
bond
MRSS PCIE 最大读取长度
mrss
MRSS 配置错误
4096
客户更正配置即可
lspci -D -nn | grep 15b3 |awk -F' ' '{print $1}' |xargs -I {} setpci -s {} 68.w=5936
eth
NV_MEM_PEER 是否安装
nv_peer_mem_state
nvidia_peermem 模块未加载
1（1代表模块已加载）
客户加载模块即可
modprobe nvidia_peermem
整机

指标英文名	指标中文名	指标说明	单位	采集方式	统计规则 [period, statType]
GpuMemTotal	GPU 内存总量	GPU 内存总量	MB	nvml	[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpumemusage	GPU 内存使用率	GPU 内存使用率	%	nvml	[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
GpuMemUsed	GPU 内存使用量	评估负载对显存占用	MB	nvml	[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpupowdraw	GPU 功耗使用量	GPU 功耗使用量	0	nvml	[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpupowlimit	GPU 功耗总量	GPU 功耗总量	0	nvml	[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpupowusage	GPU 功耗使用率	GPU 功耗使用率	%	nvml	[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gputemp	GPU 温度	评估 GPU 散热状态	0	nvml	[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpuutil	GPU 使用率	评估负载所消耗的计算能力，非空闲状态百分比	%	nvml	[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
GpuEncUtil	GPU 编码器使用率	GPU 编码器使用率	%	nvml	[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
GpuDecUtil	GPU 解码器使用率	GPU 解码器使用率	%	nvml	[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]

指标名称	建议告警阈值	描述	处理建议
GPU 功耗使用率	<=0	功耗小于0时可能功率出现Unknown Error 了，会影响 GPU 的正常使用。	执行 `nvidia-smi` 命令查看 GPU 的功率是否有 ERR 或 `nvidia-smi -i <target gpu> -q \|grep "Power Draw"` 是否为 Unknown Error，若存在该现象则尝试重启机器恢复及更新驱动观察。若重启无法恢复提交工单联系腾讯云支持。
GPU 温度	持续5分钟>80	当 GPU 温度过高时可能会导致 GPU SlowDown，影响业务性能。	可能负载过高导致 GPU 温度过高，可尝试重启实例恢复，若无法恢复提交工单联系腾讯云支持。
GPU 是否存在显存页需隔离	=1	安培以下架构 GPU 出现了 ECC ERROR，应用进程被 kill，GPU卡处于pending 状态。	执行 `nvidia-smi -i <target gpu> -q -d PAGE_RETIREMENT` 命令查看是否有 GPU 卡处于 pending 状态，重置 GPU 卡或重启实例恢复。若重启无法恢复提交工单联系腾讯云支持。
GPU 显存是否发生 UCE	=1	安培及以上架构 GPU 出现了 ECC ERROR，应用进程被 kill，GPU卡处于pending 状态。	执行 `nvidia-smi -i <target gpu> -q -d ROW_REMAPPER` 命令查看是否有 GPU 卡处于 Pending 状态，重置 GPU 卡或重启实例恢复。若重启无法恢复提交工单联系腾讯云支持。
GPU 内存使用率	仅保持观察	-	评估负载对显存占用。
GPU 使用率	仅保持观察	-	评估负载对 GPU 流处理器占用。

指标英文名	指标中文名	指标说明（非必填）	单位	统计粒度
RxHpbwAvg	毫秒级_RDMA 网卡接收带宽平均值	10秒内 RDMA 网卡接收带宽的毫秒级统计粒度平均值	Mbps	10s、60s、 300s、 3600s
RxHpbwMax	毫秒级_RDMA 网卡接收带宽最大值	10秒内 RDMA 网卡接收带宽的毫秒级统计粒度最大值	Mbps	10s、60s、 300s、 3600s
RxHpbwMin	毫秒级_RDMA 网卡接收带宽最小值	10秒内 RDMA 网卡接收带宽的毫秒级统计粒度最小值	Mbps	10s、60s、 300s、 3600s
RxHpbwP50	毫秒级_RDMA 网卡接收带宽50百分位值	10秒内从小到大 RDMA 网卡接收带宽的毫秒级统计粒度前50百分位数	Mbps	10s、60s、 300s、 3600s、 86400s
RxHpbwP90	毫秒级_RDMA 网卡接收带宽90百分位值	10秒内从小到大 RDMA 网卡接收带宽的毫秒级统计粒度前90百分位数	Mbps	10s、60s、 300s、 3600s
TxHpbwAvg	毫秒级_RDMA 网卡发送带宽平均值	10秒内 RDMA 网卡发送带宽的毫秒级统计粒度平均值	Mbps	10s、60s、 300s、 3600s
TxHpbwMax	毫秒级_RDMA 网卡发送带宽最大值	10秒内 RDMA 网卡发送带宽的毫秒级统计粒度最大值	Mbps	10s、60s、 300s、 3600s
TxHpbwMin	毫秒级_RDMA 网卡发送带宽最小值	10秒内 RDMA 网卡发送带宽的毫秒级统计粒度最小值	Mbps	10s、60s、 300s、 3600s
TxHpbwP50	毫秒级_RDMA 网卡发送带宽50百分位	10秒内从小到大 RDMA 网卡发送带宽毫秒级统计粒度前50百分位数	Mbps	10s、60s、 300s、 3600s
TxHpbwP90	毫秒级_RDMA 网卡发送带宽90百分位	10秒内从小到大 RDMA 网卡发送带宽毫秒级统计粒度前90百分位数	Mbps	10s、60s、 300s、 3600s

监测指标	指标名	错误描述	正确配置值	处理策略	客户更正方式	设备
接线状况监测	link_detected	链路 down	1（1代表端口 up）	客户尝试软件恢复，如无法恢复，授权运维维修	ifconfig $ethname up	eth
ACS 开关	acs	ACS 开关配置错误	0（0代表关闭 ACS）	客户改正配置（需要重启机器）	bash /etc/acsctl_online.sh disable_acsctl	eth
RDMA_MTU 大小	active_mtu	RDMA 卡的 MTU配置错误（影响性能）	9100	客户更正配置即可	ifconfig $ethname mtu 9100	bond
ATS 开关	ats_enabled	ATS 开关配置错误	0（0代表关闭 ATS）	客户改正配置（需要重启机器）	// 关闭 ATS for i in `lspci -d 15b3: \| awk '{print $1}'`; do echo $i; mlxconfig -d $i -y s ATS_ENABLED=0; done // 重启之后确认状态 for i in `lspci -d 15b3: \| awk '{print $1}'`; do echo $i; mlxconfig -d $i q \| grep ATS_ENABLED; done	eth
bonding 模式	bonding_mode	bonding 模式配置错误	4（4代表双发模式）	客户更正配置即可	cd /usr/local/qcloud/rdma/; sh set_bonding.sh; sh dscp.sh	bond
dcqcn 使能	dcqcn_enable	dcqcn 未使能	11（两个1分别代表 rp和 np 的状态）	客户更正配置即可	echo 1 > /sys/class/net/$ethname/ecn/roce_rp/enable/5 echo 1 > /sys/class/net/$ethname/ecn/roce_np/enable/5	eth
网卡混杂模式	eth_promisc	网卡误配为混杂模式	0（0代表非混杂模式）	客户更正配置即可	ifconfig $ethname -promisc	eth
流量类别	traffic_class	流量类别配置错误	160	客户更正配置即可	echo 160 > /sys/class/infiniband/$RDMA_name/tc/1/traffic_class	bond
q5 PFC 配置	q5_pfc_enabled	PFC 未使能，存在QOS ERROR	1（1代表 PFC 使能）	客户更正配置即可	mlnx_qos -i $ethname -f 0,0,0,0,0,1,0,0	eth
优先级信任状态	prio_trust_state	优先级信任状态配置错误	1（1代表 dscp）	客户更正配置即可	mlnx_qos -i $ethname --trust=dscp	eth
pcie 速率	max_link_speed	PCIE GEN 配置错误	16	客户更正配置即可	尝试重启实例恢复，若无法恢复提交工单腾讯云支持	eth
pcie 宽度	max_link_width	PCIE width 配置错误	16	客户更正配置即可	尝试重启实例恢复，若无法恢复提交工单腾讯云支持	eth
IB 设备状态	link_state	bond 口下两个 eth口全部 down	1（1代表 bond 口up）	客户尝试软件恢复，如无法恢复，授权运维维修	ifconfig $ethname up	bond
MRSS PCIE 最大读取长度	mrss	MRSS 配置错误	4096	客户更正配置即可	lspci -D -nn \| grep 15b3 \|awk -F' ' '{print $1}' \|xargs -I {} setpci -s {} 68.w=5936	eth
NV_MEM_PEER 是否安装	nv_peer_mem_state	nvidia_peermem 模块未加载	1（1代表模块已加载）	客户加载模块即可	modprobe nvidia_peermem	整机

GPU 服务器监控告警配置及处理建议

本页目录：

GPU 云服务器监控指标告警订阅及处理建议。

1. GPU 云服务器监控指标查看

单台 GPU 云服务器监控指标查看

多台 GPU 云服务器监控指标查看

2. GPU 云服务器监控指标说明

3. GPU 云服务器监控指标告警配置

4. GPU 云服务器告警处理建议

高性能计算集群 GPU 型实例 RDMA 监控指标告警订阅及处理建议

1. 高性能计算集群 GPU 型实例 RDMA 监控查看

单台 GPU 服务器 RDMA 监控指标查看

多台 GPU 服务器 RDMA 监控指标查看

2. 高性能计算集群 GPU 型实例 RDMA 监控指标说明

3. 高性能计算集群 GPU 型实例 RDMA 监控指标告警配置

4. 高性能计算集群 GPU 型实例 RDMA 告警处理建议