文档中心>GPU 云服务器

GPU 服务器监控告警配置及处理建议

最近更新时间:2024-12-27 10:12:42

我的收藏
监控与告警是保证 GPU 服务器高可靠性、高可用性和高性能的重要部分。创建 GPU 服务器时,默认免费开通腾讯云可观测平台。您可以通过 云服务器控制台 查看监控指标,详细说明请参见 云服务器监控指标。NVIDIA GPU 系列实例另外提供了监控 GPU 使用率,显存使用量,功耗以及温度等参数的能力。

GPU 云服务器监控指标告警订阅及处理建议。

1. GPU 云服务器监控指标查看

单台 GPU 云服务器监控指标查看

单击 GPU 实例 列表中的

监控图标, 访问 腾讯云控制台 GPU 实例的监控页面,查看 GPU 监控,移动鼠标到指标曲线上将显示对应 GPU 设备的 BDF 和监控数据。如下图所示:


多台 GPU 云服务器监控指标查看

登录 腾讯云可观测平台,左侧导航栏中选择 Dashboard ,进入 Dashboard 列表页。创建 Dashboard 后,在指标处选择 GPU/ 云服务器 /GPU 监控,单击您关注的指标,自定义监控面板进行多实例展示,如下图所示:




2. GPU 云服务器监控指标说明

GPU 云服务器各个监控指标含义如下所示:
指标英文名
指标中文名
指标说明
单位
采集方式
统计规则 [period, statType]
GpuMemTotal
GPU 内存总量
GPU 内存总量
MB
nvml
[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpumemusage
GPU 内存使用率
GPU 内存使用率
%
nvml
[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
GpuMemUsed
GPU 内存使用量
评估负载对显存占用
MB
nvml

[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpupowdraw
GPU 功耗使用量
GPU 功耗使用量
0
nvml

[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpupowlimit
GPU 功耗总量
GPU 功耗总量
0
nvml

[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpupowusage
GPU 功耗使用率
GPU 功耗使用率
%
nvml

[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gputemp
GPU 温度
评估 GPU 散热状态
0
nvml

[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
Gpuutil
GPU 使用率
评估负载所消耗的计算能力,非空闲状态百分比
%
nvml

[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
GpuEncUtil
GPU 编码器使用率
GPU 编码器使用率
%
nvml

[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]
GpuDecUtil
GPU 解码器使用率
GPU 解码器使用率
%
nvml

[10s, avg] [60s, avg] [300s, avg] [3600s, avg] [86400s, avg]

3. GPU 云服务器监控指标告警配置

腾讯云可观测平台 支持分析更丰富的 GPU 监控指标。您可登录 腾讯云可观测平台,左侧导航栏中选择告警配置新建告警策略,监控类型选择云产品监控,策略类型选择云服务器 /GPU 监控告警,选择预期告警的 GPU 实例对象,触发条件选择手动配置。



GPU 云服务器监控支持 GPU 内存使用率,GPU 功耗使用率,GPU 使用率,GPU 温度,GPU 是否存在显存页需隔离,GPU 显存是否发生 UCE 等指标告警,可参考下图进行配置告警。



告警通知的配置参见 新建通知模板 文档,支持多种渠道通知。

4. GPU 云服务器告警处理建议

指标名称
建议告警阈值
描述
处理建议
GPU 功耗使用率
<=0
功耗小于0时可能功率出现Unknown Error 了,会影响 GPU 的正常使用。

执行 nvidia-smi 命令查看 GPU 的功率是否有 ERR 或 nvidia-smi -i <target gpu> -q |grep "Power Draw" 是否为 Unknown Error,若存在该现象则尝试重启机器恢复及更新驱动观察。若重启无法恢复 提交工单 联系腾讯云支持。
GPU 温度
持续5分钟>80
当 GPU 温度过高时可能会导致 GPU SlowDown,影响业务性能。
可能负载过高导致 GPU 温度过高,可尝试重启实例恢复,若无法恢复 提交工单 联系腾讯云支持。
GPU 是否存在显存页需隔离
=1
安培以下架构 GPU 出现了 ECC ERROR,应用进程被 kill,GPU卡处于pending 状态。
执行 nvidia-smi -i <target gpu> -q -d PAGE_RETIREMENT 命令查看是否有 GPU 卡处于 pending 状态,重置 GPU 卡或重启实例恢复。若重启无法恢复 提交工单 联系腾讯云支持。
GPU 显存是否发生 UCE
=1
安培及以上架构 GPU 出现了 ECC ERROR,应用进程被 kill,GPU卡处于pending 状态。
执行 nvidia-smi -i <target gpu> -q -d ROW_REMAPPER 命令查看是否有 GPU 卡处于 Pending 状态,重置 GPU 卡或重启实例恢复。若重启无法恢复 提交工单 联系腾讯云支持。
GPU 内存使用率
仅保持观察
-
评估负载对显存占用。
GPU 使用率
仅保持观察
-
评估负载对 GPU 流处理器占用。

高性能计算集群 GPU 型实例 RDMA 监控指标告警订阅及处理建议

高性能计算集群以高性能云服务器为节点,通过 RDMA(Remote Direct Memory Access)互联,提供了高带宽和极低延迟的网络服务,大幅提升网络性能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。

1. 高性能计算集群 GPU 型实例 RDMA 监控查看

单台 GPU 服务器 RDMA 监控指标查看

1. 高性能计算集群 中选择单击集群 ID查看详情,可看到集群的 GPU 服务器实例详情。

2. 单击 GPU 实例 列表中的

监控图标, 访问 腾讯云控制台 GPU 实例的监控页面,查看 RDMA监控(仅支持分钟级以上粒度),移动鼠标到指标曲线上将显示实例对应 bond 的监控数据。如下图所示,当前支持 RDMA网卡发送带宽,RDMA 网卡接收带宽,RDMA 网卡出包量,RDMA 网卡入包量显示。


多台 GPU 服务器 RDMA 监控指标查看

多台实例 RDMA 监控可在云产品监控查看统计数据,您可以在云产品监控 -dashboard 中配置您需要的监控指标,操作步骤如下:
1. 新建 Dashboard,新建图表,指标选择云服务器 -RDMA 监控。

2. 选择您需要监控的 RDMA 毫秒级统计指标。

3. 选择需要监控的高性能计算集群实例 ID。

4. 单击确定即可快速创建 Dashboard。


2. 高性能计算集群 GPU 型实例 RDMA 监控指标说明

高性能计算集群 GPU 型实例 RDMA 各个监控指标含义如下所示:
指标英文名
指标中文名
指标说明(非必填)
单位
统计粒度
RxHpbwAvg
毫秒级_RDMA 网卡接收带宽平均值
10秒内 RDMA 网卡接收带宽的毫秒级统计粒度平均值
Mbps
10s、60s、 300s、 3600s
RxHpbwMax
毫秒级_RDMA 网卡接收带宽最大值
10秒内 RDMA 网卡接收带宽的毫秒级统计粒度最大值
Mbps
10s、60s、 300s、 3600s
RxHpbwMin
毫秒级_RDMA 网卡接收带宽最小值
10秒内 RDMA 网卡接收带宽的毫秒级统计粒度最小值
Mbps
10s、60s、 300s、 3600s
RxHpbwP50
毫秒级_RDMA 网卡接收带宽50百分位值
10秒内从小到大 RDMA 网卡接收带宽的毫秒级统计粒度前50百分位数
Mbps
10s、60s、 300s、 3600s、 86400s
RxHpbwP90
毫秒级_RDMA 网卡接收带宽90百分位值
10秒内从小到大 RDMA 网卡接收带宽的毫秒级统计粒度前90百分位数
Mbps
10s、60s、 300s、 3600s
TxHpbwAvg
毫秒级_RDMA 网卡发送带宽平均值
10秒内 RDMA 网卡发送带宽的毫秒级统计粒度平均值
Mbps
10s、60s、 300s、 3600s
TxHpbwMax
毫秒级_RDMA 网卡发送带宽最大值
10秒内 RDMA 网卡发送带宽的毫秒级统计粒度最大值
Mbps
10s、60s、 300s、 3600s
TxHpbwMin
毫秒级_RDMA 网卡发送带宽最小值
10秒内 RDMA 网卡发送带宽的毫秒级统计粒度最小值
Mbps
10s、60s、 300s、 3600s
TxHpbwP50
毫秒级_RDMA 网卡发送带宽50百分位
10秒内从小到大 RDMA 网卡发送带宽毫秒级统计粒度前50百分位数
Mbps
10s、60s、 300s、 3600s
TxHpbwP90
毫秒级_RDMA 网卡发送带宽90百分位
10秒内从小到大 RDMA 网卡发送带宽毫秒级统计粒度前90百分位数
Mbps
10s、60s、 300s、 3600s

3. 高性能计算集群 GPU 型实例 RDMA 监控指标告警配置

1. 登录 腾讯云可观测平台,左侧导航栏中选择告警配置新建告警策略,监控类型选择云产品监控,策略类型选择云服务器 /RDMA 监控,选择告警对象。

指标告警参考如下配置:

2. 告警通知可参见 新建通知模板 配置,支持多渠道通知。
配置完成后策略查看截图如下:

告警示例截图如下:


4. 高性能计算集群 GPU 型实例 RDMA 告警处理建议

监测指标
指标名
错误描述
正确配置值
处理策略
客户更正方式
设备
接线状况监测
link_detected
链路 down
1(1代表端口 up)
客户尝试软件恢复,如无法恢复,授权运维维修
ifconfig $ethname up
eth
ACS 开关
acs
ACS 开关配置错误
0(0代表关闭 ACS)
客户改正配置(需要重启机器)
bash /etc/acsctl_online.sh disable_acsctl
eth
RDMA_MTU 大小
active_mtu
RDMA 卡的 MTU配置错误(影响性能)
9100
客户更正配置即可
ifconfig $ethname mtu 9100
bond
ATS 开关
ats_enabled
ATS 开关配置错误
0(0代表关闭 ATS)
客户改正配置(需要重启机器)
// 关闭 ATS
for i in `lspci -d 15b3: | awk '{print $1}'`; do echo $i; mlxconfig -d $i -y s ATS_ENABLED=0; done

// 重启之后确认状态
for i in `lspci -d 15b3: | awk '{print $1}'`; do echo $i; mlxconfig -d $i q | grep ATS_ENABLED; done
eth
bonding 模式
bonding_mode
bonding 模式配置错误
4(4代表双发模式)
客户更正配置即可
cd /usr/local/qcloud/rdma/; sh set_bonding.sh; sh dscp.sh
bond
dcqcn 使能
dcqcn_enable
dcqcn 未使能
11(两个1分别代表 rp和 np 的状态)
客户更正配置即可
echo 1 > /sys/class/net/$ethname/ecn/roce_rp/enable/5
echo 1 > /sys/class/net/$ethname/ecn/roce_np/enable/5
eth
网卡混杂模式
eth_promisc
网卡误配为混杂模式
0(0代表非混杂模式)
客户更正配置即可
ifconfig $ethname -promisc
eth
流量类别
traffic_class
流量类别配置错误
160
客户更正配置即可
echo 160 > /sys/class/infiniband/$RDMA_name/tc/1/traffic_class
bond
q5 PFC 配置
q5_pfc_enabled
PFC 未使能,存在QOS ERROR
1(1代表 PFC 使能)
客户更正配置即可
mlnx_qos -i $ethname -f 0,0,0,0,0,1,0,0
eth
优先级信任状态
prio_trust_state
优先级信任状态配置错误
1(1代表 dscp)
客户更正配置即可
mlnx_qos -i $ethname --trust=dscp
eth
pcie 速率
max_link_speed
PCIE GEN 配置错误
16
客户更正配置即可
尝试重启实例恢复,若无法恢复提交工单腾讯云支持
eth
pcie 宽度
max_link_width
PCIE width 配置错误
16
客户更正配置即可
尝试重启实例恢复,若无法恢复提交工单腾讯云支持
eth
IB 设备状态
link_state
bond 口下两个 eth口全部 down
1(1代表 bond 口up)
客户尝试软件恢复,如无法恢复,授权运维维修
ifconfig $ethname up
bond
MRSS PCIE 最大读取长度
mrss
MRSS 配置错误
4096
客户更正配置即可
lspci -D -nn | grep 15b3 |awk -F' ' '{print $1}' |xargs -I {} setpci -s {} 68.w=5936
eth
NV_MEM_PEER 是否安装
nv_peer_mem_state
nvidia_peermem 模块未加载
1(1代表模块已加载)
客户加载模块即可
modprobe nvidia_peermem
整机