监控与告警是保证 GPU 云服务器高可靠性、高可用性和高性能的重要部分。创建 GPU 云服务器时,默认免费开通腾讯云可观测平台。您可以通过 云服务器控制台 查看监控指标,详细说明请参见 云服务器监控内容。NVIDIA GPU 系列实例另外提供了监控 GPU 使用率,显存使用量,功耗以及温度等参数的能力。
GPU 监控工作条件
使用公共镜像:公共镜像默认包含云服务器监控组件,只需安装 GPU 驱动。
使用云镜像市场 GPU 驱动预装镜像:无需任何安装。
使用导入镜像:需手动安装云服务器监控组件和 GPU 驱动。
在控制台查看 GPU 工作参数
单击 GPU 列表中的 
监控图标, 访问 控制台 GPU 实例的监控页面,查看 GPU 监控,移动鼠标到指标曲线上将显示对应 GPU 设备的 BDF(Bus、Device、Function,设备唯一地址)和监控数据。如下图所示:



参数说明:
指标名称 | 含义 | 单位 | 维度 |
GPU 使用率 | 评估负载所消耗的计算能力,非空闲状态百分比 | % | per-GPU |
GPU 显存使用量 | 评估负载对显存占用 | MB | per-GPU |
GPU 显存使用率 | 评估负载对显存占用百分比 | % | per-GPU |
GPU 功耗使用量 | 评估 GPU 耗电情况 | W | per-GPU |
GPU 温度 | 评估 GPU 散热状态 | 摄氏度 | per-GPU |
GPU 编码器使用率 | 评估编码器使用百分比 | % | per-GPU |
GPU 解码器使用率 | 评估解码器使用百分比 | % | per-GPU |
在腾讯云可观测平台查看 GPU 工作参数
1. 登录 腾讯云可观测平台,左侧导航栏中选择 Dashboard ,进入 Dashboard 列表页。
2. 在 Dashboard 列表中,单击 新建 Dashboard,在新的 Dashboard 选择新建图表,在指标处选择 GPU / 云服务器 / GPU 监控,单击您关注的指标,自定义监控面板进行多实例展示,如下图所示:


指标英文名 | 指标中文名 | 指标说明 | 单位 | 维度 |
Gpumemusage | GPU 显存使用率 | GPU 显存使用率 | % | per-GPU |
GpuMemUsed | GPU 显存使用量 | 评估负载对显存占用 | MB | per-GPU |
Gpupowdraw | GPU 功耗使用量 | GPU 功耗使用量 | W | per-GPU |
Gpupowusage | GPU 功耗使用率 | GPU 功耗使用率 | % | per-GPU |
Gputemp | GPU 温度 | 评估 GPU 散热状态 | 摄氏度 | per-GPU |
Gpuutil | GPU 使用率 | 评估负载所消耗的计算能力,非空闲状态百分比 | % | per-GPU |
GpuEncUtil | GPU 编码器使用率 | GPU 编码器使用率 | % | per-GPU |
GpuDecUtil | GPU 解码器使用率 | GPU 解码器使用率 | % | per-GPU |
GPU 云服务器监控指标告警配置
1. 登录 腾讯云可观测平台,在左侧导航栏中,选择告警管理 > 告警配置。
2. 单击 新建告警策略,在监控类型选择云产品监控,策略类型中选择云服务器 / GPU 监控,选择您希望接收告警的 GPU 实例对象,触发条件选择手动配置。


3. GPU 云服务器监控支持以下指标告警:GPU 内存使用率、GPU 功耗使用率、GPU 使用率、GPU 温度、GPU 是否存在显存页需隔离、GPU 显存是否发生 UCE 等。您可以参考下图进行配置告警。告警通知的配置可参见 新建通知模板,支持通过多种渠道进行通知。


常用告警指标参考如下:
指标名称 | 建议告警阈值 | 描述 | 处理建议 |
GPU 功耗使用率 | <=0 | 功耗小于0时可能功率出现Unknown Error 了,会影响 GPU 的正常使用。 | 执行 nvidia-smi 命令查看 GPU 的功率是否有 ERR 或 nvidia-smi -i <target gpu> -q |grep "Power Draw" 是否为 Unknown Error,若存在该现象则尝试重启机器恢复及更新驱动观察。若重启无法恢复 提交工单 联系腾讯云支持。 |
GPU 温度 | 持续5分钟>80 | 当 GPU 温度过高时可能会导致 GPU SlowDown,影响业务性能。 | |
GPU 是否存在显存页需隔离 | =1 | 安培以下架构 GPU 出现了 ECC ERROR,应用进程被 kill,GPU卡处于pending 状态。 | 执行 nvidia-smi -i <target gpu> -q -d PAGE_RETIREMENT 命令查看是否有 GPU 卡处于 pending 状态,重置 GPU 卡或重启实例恢复。若重启无法恢复 提交工单 联系腾讯云支持。 |
GPU 显存是否发生 UCE | =1 | 安培及以上架构 GPU 出现了 ECC ERROR,应用进程被 kill,GPU卡处于pending 状态。 | 执行 nvidia-smi -i <target gpu> -q -d ROW_REMAPPER 命令查看是否有 GPU 卡处于 Pending 状态,重置 GPU 卡或重启实例恢复。若重启无法恢复 提交工单 联系腾讯云支持。 |
GPU 内存使用率 | 仅保持观察 | - | 评估负载对显存占用。 |
GPU 使用率 | 仅保持观察 | - | 评估负载对 GPU 流处理器占用。 |