用户指南

最佳实践

API 文档

监控及告警指标列表

最近更新时间:2022-04-22 17:19:35

目前容器服务提供了以下维度的监控告警指标,所有指标均为统计周期内的平均值

集群监控及告警指标

指标 单位 说明
Pod 数量 集群中 Pod 个数
Node 数量 集群中 Node 个数
CPU 总配置 集群的 CPU 总配置量
CPU 使用量 集群的 CPU 使用量
CPU 利用率 % 集群的 CPU 利用率
CPU 使用量(弹性容器) 弹性容器的 CPU 使用量(若使用节点池的虚拟节点)
块设备读取大小 Mbytes 集群硬盘的使用总量
块设备读取次数 集群硬盘读取总次数
块设备写入大小 Mbytes 集群硬盘写入数据量
块设备写入次数 集群硬盘写入总次数
内存总和 Gbytes 集群内存总量
内存使用量 Mbytes 集群内存使用量总和
内存利用率 % 集群内存利用率
内存使用量(弹性容器) Mbytes 弹性容器的内存使用量(若使用节点池的虚拟节点)
内存使用量(弹性容器,不含 Cache) Mbytes 弹性容器的内存(不含 Cache)使用量(若使用节点池虚拟节点)
网络入流量 Mbytes 集群网络入流量
网络带宽 Mbps 集群网络带宽
网络入包量 个/s 集群网络入包量
网络出流量 Mbytes 集群网络出流量
网络出包量 个/s 集群网络出包量
GPU 内存总量 Gbytes 集群 GPU 内存总量
GPU 内存使用量 Mbytes 集群 GPU 内存总使用量
GPU 总量 集群 GPU 总量
GPU 使用量 集群整体的 CPU 利用率
显存利用率 % GPU 显存利用率
GPU 利用率 % 集群 GPU 利用率

Master&Etcd 和普通节点监控及告警指标

指标 单位 说明
Pod 重启次数 节点内所有 Pod 的重启次数之和
Node 状态 - 节点的状态,正常或异常
CPU 利用率 % 节点内所有 Pod 的 CPU 使用量占节点总量之比
CPU 分配量 节点内所有 Pod 的 CPU 分配量总和
内存利用率 % 节点内所有 Pod 的工作集内存使用量占节点总量之比
内存分配量 Mbps 节点内所有 Pod 的内存分配量总和
内网入带宽 Mbps 节点内所有 Pod 的内网入方向带宽之和
内网出带宽 Mbps 节点内所有 Pod 的内网出方向带宽之和
外网入带宽 Mbps 节点内所有 Pod 的外网入方向带宽之和
外网出带宽 Mbps 节点内所有 Pod 的外网出方向带宽之和
TCP 连接数 节点保持的 TCP 连接数
GPU 使用量 节点内所有 Pod 的 GPU 使用量之和
GPU 内存使用量 Mbps 节点内所有 Pod 的 GPU 内存使用量之和
GPU 内存利用率 % 节点内所有 Pod 的 GPU 内存使用量占节点 GPU 内存总量之比
GPU 利用率 % 节点内所有 Pod 的 GPU 使用量占节点 GPU 总量之比
Node 的 eni- IP 分配量 Node 的弹性网卡上已分配的 IP 数量
Node 的 direct-eni 分配量 Node 的 direct-eni 上已分配的 IP 数量
GlobalRouter模式集群中节点 Pod CIDR 已经分配的 IP 数 GlobalRouter 模式的 K8S 集群中,一个节点的 Pod CIDR 中已分配的 IP 个数
GlobalRouter模式集群中节点可以分配的 IP 数 GlobalRouter 模式的 K8S 集群中,一个节点中总共可分配的 IP 个数

集群节点更详细的指标监控及告警请参考 云服务器监控云监控创建告警策略
集群节点数据盘更详细的指标监控及告警请参考 云硬盘监控云监控创建告警策略

工作负载监控及告警指标

指标 单位 说明
工作负载异常 - 工作负载是否为异常状态,非0即为异常
Pod 数量 工作负载内所有 Pod 的数量和
Pod 重启次数 工作负载内所有 Pod 的重启次数之和
CPU 使用量 工作负载内所有 Pod 的 CPU 使用量
CPU 利用率 % 工作负载内所有 Pod 的 CPU 使用量占总量之比
内存使用量 Mbytes 工作负载内所有 Pod 的内存使用量之和
内存使用量(不含 Cache) Mbytes 工作负载内所有 Pod 的内存使用量(不含 Cache)之和
内存使用量(working_set) Mbytes 工作负载内所有 Pod 的工作集内存使用量之和
内存利用率 % 工作负载内所有 Pod 的内存使用量占总量之比
内存利用率(不含 Cache) % 工作负载内所有 Pod 的内存使用量(不含 Cache)占所有 Pod 内存总量之比
内存利用率(working_set) % 工作负载内所有 Pod 的工作集内存使用量占总量之比
网络入带宽 bps 工作负载内所有 Pod 的入方向带宽之和
网络出带宽 bps 工作负载内所有 Pod 的出方向带宽之和
网络入流量 B 工作负载内所有 Pod 的入方向流量之和
网络出流量 B 工作负载内所有 Pod 的出方向流量之和
网络入包量 个/s 工作负载内所有 Pod 的入方向包数之和
网络出包量 个/s 工作负载内所有 Pod 的出方向包数之和
块设备读取大小 Mbytes 工作负载内所有 Pod 的块设备读取大小之和
块设备读取次数 工作负载内所有 Pod 的块设备读取次数之和
块设备写入大小 Mbytes 工作负载内所有 Pod 的块设备写入大小之和
块设备写入次数 工作负载内所有 Pod 的块设备写入次数之和
GPU 使用量 工作负载内所有 Pod 的 GPU 使用量之和
GPU 内存使用量 Mbps 工作负载内所有 Pod 的 GPU 内存使用量之和
GPU 内存利用率 % 工作负载内所有 Pod 的 GPU 内存使用量与 GPU 内存总量之比
GPU 利用率 % 工作负载内所有 Pod 的 GPU 使用量与 GPU 总量之比

如果工作负载对集群外部提供服务,绑定的 Service 更详细的网络监控指标请参考 负载均衡监控

Pod 监控及告警指标

指标 单位 说明
Pod 重启次数 Pod 的重启次数
异常状态 - Pod 的状态,正常或异常
CPU 使用量 Pod 的 CPU 使用量
CPU 利用率(占节点) % Pod 的 CPU 使用量占节点总量之比
CPU 利用率(占 Request) % Pod 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit) % Pod 的 CPU 使用量和设置的 Limit 值之比
内存使用量 Mbytes Pod 中 Container 的内存使用量(含缓存)之和(来源:container_memory_usage_bytes)
内存使用量(不包含 Cache) Mbytes Pod 中 Container 的内存使用量(不含缓存)之和(来源:container_memory_usage_bytes - container_memory_cache)
内存使用量(working_set) Mbytes Pod 中 Container 的工作集内存使用量(来源:container_memory_working_set_bytes)
内存利用率(占节点) % Pod 中 Container 的内存使用量(含缓存)占节点总量之比
内存利用率(占节点,不包含 Cache) % Pod 中 Container 的内存使用量(不含缓存)占节点总量之比
内存利用率(占节点,working_set) % Pod 中 Container 的工作集内存使用量占节点总量之比
内存利用率(占 Request) % Pod 中 Container 的内存使用量和设置的 Request 值之比
内存利用率(占 Request,不包含 Cache) % Pod 中 Container 的内存使用量(不含缓存)和设置的 Request 值之比
内存利用率(占 Request,working_set) % Pod 中 Container 的工作集内存使用量与设置的 Request 值之比
内存利用率(占 Limit) % Pod 中 Container 的内存使用量和设置的 Limit 值之比
内存利用率(占 Limit,不包含 Cache) % Pod 中 Container 的内存使用量(不含缓存)和设置的 Limit 值之比
内存利用率(占 Limit,working_set) % Pod 中 Container 的工作集内存使用量与设置的 Limit 值之比
网络入带宽 Mbps Pod 的入方向带宽之和
网络出带宽 Mbps Pod 的出方向带宽之和
网络入流量 Mbytes Pod 的入方向流量之和
网络出流量 Mbytes Pod 的出方向流量之和
网络入包量 个/s Pod 的入方向包数之和
网络出包量 个/s Pod 的出方向包数之和
Pod TCP 连接数 Pod 的 TCP 连接数
块设备读取大小 Mbytes Pod 的块设备读取大小
块设备读取次数 Pod 的块设备读取次数
块设备写入大小 Mbytes Pod 的块设备写入大小
块设备写入次数 Pod 的块设备写入次数
rootfs使用量 字节 Pod 中 rootfs 使用量
GPU 申请量 Pod 中 GPU 申请量
GPU 内存利用率(占节点) % Pod 中 GPU 内存使用量占节点 GPU 内存总量之比
GPU 内存利用率(占 request) % Pod 中 GPU 内存使用量占 GPU 内存申请量之比
GPU 利用率(占节点) % Pod 中 GPU 使用量占节点 GPU 总量之比
GPU 利用率(占 request) % Pod 中 GPU 使用量占 GPU 申请量之比
GPU 内存申请量 Mbytes Pod 中 GPU 内存申请量
GPU 内存使用量 Mbytes Pod 中 GPU 内存使用量
GPU 使用量 Pod 中 GPU 使用量
GPU 显存使用率 % Pod 中 GPU 显存使用量占显存总量的百分比
GPU 编码资源使用率 % Pod 中 GPU 编码资源使用率
GPU 解码资源使用率 % Pod 中 GPU 解码资源使用率
GPU 流处理器使用率 % Pod 中 GPU 流处理器使用率

Container 监控及告警指标

指标 单位 说明
CPU 使用量 Container 的 CPU 使用量
CPU 利用率(占节点) % Container 的 CPU 使用量占节点总量之比
CPU 利用率(占 Request) % Container 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit) % Container 的 CPU 使用量和设置的 Limit 值之比
内存使用量 Mbytes Container 的内存使用量,含缓存(来源:container_memory_usage_bytes)
内存使用量(不包含 Cache) Mbytes Container 的内存使用量,不含缓存(来源:container_memory_usage_bytes - container_memory_cache)
内存使用量(working_set) Mbytes Container 的工作集内存使用量(来源:container_memory_working_set_bytes)
内存利用率(占节点) % Container 的内存使用量(含缓存)占节点总量之比
内存利用率(占节点,不包含 Cache) % Container 的内存使用量(不含缓存)占节点总量之比
内存利用率(占节点,working_set) % Container 的工作集内存使用量占节点总量之比
内存利用率(占 Request) % Container 的内存使用量和设置的 Request 值之比
内存利用率(占 Request,不包含 Cache) % Container 的内存使用量(不含缓存)和设置的 Request 值之比
内存利用率(占 Request,working_set) % Container 的工作集内存使用量与设置的 Request 值之比
内存利用率(占 Limit) % Container 的内存使用量和设置的 Limit 值之比
内存利用率(占 Limit,不包含 Cache) % Container 的内存使用量(不含缓存)和设置的 Limit 值之比
内存利用率(占 Limit,working_set) % Container 的工作集内存使用量与设置的 Limit 值之比
块设备读带宽 B/s Container 从硬盘读取数据的吞吐量
块设备写带宽 B/s Container 把数据写入硬盘的吞吐量
块设备读 IOPS 次/s Container 从硬盘读取数据的 IO 次数
块设备写 IOPS 次/s Container 把数据写入硬盘的 IO 次数