有奖捉虫:云通信与企业服务文档专题,速来> HOT
目前容器服务提供了以下维度的监控告警指标,所有指标均为统计周期内的平均值

集群监控及告警指标

指标
单位
说明
Pod 数量
集群中 Pod 个数
Node 数量
集群中 Node 个数
CPU 总配置
集群的 CPU 总配置量
CPU 使用量
集群的 CPU 使用量
CPU 利用率
%
集群的 CPU 利用率
CPU 使用量(弹性容器)
弹性容器的 CPU 使用量(若使用节点池的虚拟节点)
块设备读取大小
Mbytes
集群硬盘的使用总量
块设备读取次数
集群硬盘读取总次数
块设备写入大小
Mbytes
集群硬盘写入数据量
块设备写入次数
集群硬盘写入总次数
内存总和
Gbytes
集群内存总量
内存使用量
Mbytes
集群内存使用量总和
内存利用率
%
集群内存利用率
内存使用量(弹性容器)
Mbytes
弹性容器的内存使用量(若使用节点池的虚拟节点)
内存使用量(弹性容器,不含 Cache)
Mbytes
弹性容器的内存(不含 Cache)使用量(若使用节点池虚拟节点)
网络入流量
Mbytes
集群网络入流量
网络带宽
Mbps
集群网络带宽
网络入包量
个/s
集群网络入包量
网络出流量
Mbytes
集群网络出流量
网络出包量
个/s
集群网络出包量
GPU 内存总量
Gbytes
集群 GPU 内存总量
GPU 内存使用量
Mbytes
集群 GPU 内存总使用量
GPU 总量
集群 GPU 总量
GPU 使用量
集群整体的 CPU 利用率
显存利用率
%
GPU 显存利用率
GPU 利用率
%
集群 GPU 利用率

Master&Etcd 和普通节点监控及告警指标

指标
单位
说明
Pod 重启次数
节点内所有 Pod 的重启次数之和
Node 状态
-
节点的状态,正常或异常
CPU 利用率
%
节点内所有 Pod 的 CPU 使用量占节点总量之比
CPU 分配量
节点内所有 Pod 的 CPU 分配量总和
内存利用率
%
节点内所有 Pod 的工作集内存使用量占节点总量之比
内存分配量
Mbps
节点内所有 Pod 的内存分配量总和
内网入带宽
Mbps
节点内所有 Pod 的内网入方向带宽之和
内网出带宽
Mbps
节点内所有 Pod 的内网出方向带宽之和
外网入带宽
Mbps
节点内所有 Pod 的外网入方向带宽之和
外网出带宽
Mbps
节点内所有 Pod 的外网出方向带宽之和
TCP 连接数
节点保持的 TCP 连接数
GPU 使用量
节点内所有 Pod 的 GPU 使用量之和
GPU 内存使用量
Mbps
节点内所有 Pod 的 GPU 内存使用量之和
GPU 内存利用率
%
节点内所有 Pod 的 GPU 内存使用量占节点 GPU 内存总量之比
GPU 利用率
%
节点内所有 Pod 的 GPU 使用量占节点 GPU 总量之比
Node 的 eni- IP 分配量
Node 的弹性网卡上已分配的 IP 数量
Node 的 direct-eni 分配量
Node 的 direct-eni 上已分配的 IP 数量
GlobalRouter模式集群中节点 Pod CIDR 已经分配的 IP 数
GlobalRouter 模式的 K8S 集群中,一个节点的 Pod CIDR 中已分配的 IP 个数
GlobalRouter模式集群中节点可以分配的 IP 数
GlobalRouter 模式的 K8S 集群中,一个节点中总共可分配的 IP 个数
集群节点更详细的指标监控及告警请参考 云服务器监控创建告警策略。 集群节点数据盘更详细的指标监控及告警请参考 云硬盘监控创建告警策略

工作负载监控及告警指标

指标
单位
说明
工作负载异常
-
工作负载是否为异常状态,非0即为异常
Pod 数量
工作负载内所有 Pod 的数量和
Pod 重启次数
工作负载内所有 Pod 的重启次数之和
CPU 使用量
工作负载内所有 Pod 的 CPU 使用量
CPU 利用率
%
工作负载内所有 Pod 的 CPU 使用量占总量之比
内存使用量
Mbytes
工作负载内所有 Pod 的内存使用量之和
内存使用量(不含 Cache)
Mbytes
工作负载内所有 Pod 的内存使用量(不含 Cache)之和
内存使用量(working_set)
Mbytes
工作负载内所有 Pod 的工作集内存使用量之和
内存利用率
%
工作负载内所有 Pod 的内存使用量占总量之比
内存利用率(不含 Cache)
%
工作负载内所有 Pod 的内存使用量(不含 Cache)占所有 Pod 内存总量之比
内存利用率(working_set)
%
工作负载内所有 Pod 的工作集内存使用量占总量之比
网络入带宽
bps
工作负载内所有 Pod 的入方向带宽之和
网络出带宽
bps
工作负载内所有 Pod 的出方向带宽之和
网络入流量
B
工作负载内所有 Pod 的入方向流量之和
网络出流量
B
工作负载内所有 Pod 的出方向流量之和
网络入包量
个/s
工作负载内所有 Pod 的入方向包数之和
网络出包量
个/s
工作负载内所有 Pod 的出方向包数之和
块设备读取大小
Mbytes
工作负载内所有 Pod 的块设备读取大小之和
块设备读取次数
工作负载内所有 Pod 的块设备读取次数之和
块设备写入大小
Mbytes
工作负载内所有 Pod 的块设备写入大小之和
块设备写入次数
工作负载内所有 Pod 的块设备写入次数之和
GPU 使用量
工作负载内所有 Pod 的 GPU 使用量之和
GPU 内存使用量
Mbps
工作负载内所有 Pod 的 GPU 内存使用量之和
GPU 内存利用率
%
工作负载内所有 Pod 的 GPU 内存使用量与 GPU 内存总量之比
GPU 利用率
%
工作负载内所有 Pod 的 GPU 使用量与 GPU 总量之比
如果工作负载对集群外部提供服务,绑定的 Service 更详细的网络监控指标请参考 负载均衡监控

Pod 监控及告警指标

指标
单位
说明
Pod 重启次数
Pod 的重启次数
异常状态
-
Pod 的状态,正常或异常
CPU 使用量
Pod 的 CPU 使用量
CPU 利用率(占节点)
%
Pod 的 CPU 使用量占节点总量之比
CPU 利用率(占 Request)
%
Pod 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit)
%
Pod 的 CPU 使用量和设置的 Limit 值之比
内存使用量
Mbytes
Pod 中 Container 的内存使用量(含缓存)之和(来源:container_memory_usage_bytes)
内存使用量(不包含 Cache)
Mbytes
Pod 中 Container 的内存使用量(不含缓存)之和(来源:container_memory_usage_bytes - container_memory_cache)
内存使用量(working_set)
Mbytes
Pod 中 Container 的工作集内存使用量(来源:container_memory_working_set_bytes)
内存利用率(占节点)
%
Pod 中 Container 的内存使用量(含缓存)占节点总量之比
内存利用率(占节点,不包含 Cache)
%
Pod 中 Container 的内存使用量(不含缓存)占节点总量之比
内存利用率(占节点,working_set)
%
Pod 中 Container 的工作集内存使用量占节点总量之比
内存利用率(占 Request)
%
Pod 中 Container 的内存使用量和设置的 Request 值之比
内存利用率(占 Request,不包含 Cache)
%
Pod 中 Container 的内存使用量(不含缓存)和设置的 Request 值之比
内存利用率(占 Request,working_set)
%
Pod 中 Container 的工作集内存使用量与设置的 Request 值之比
内存利用率(占 Limit)
%
Pod 中 Container 的内存使用量和设置的 Limit 值之比
内存利用率(占 Limit,不包含 Cache)
%
Pod 中 Container 的内存使用量(不含缓存)和设置的 Limit 值之比
内存利用率(占 Limit,working_set)
%
Pod 中 Container 的工作集内存使用量与设置的 Limit 值之比
网络入带宽
Mbps
Pod 的入方向带宽之和
网络出带宽
Mbps
Pod 的出方向带宽之和
网络入流量
Mbytes
Pod 的入方向流量之和
网络出流量
Mbytes
Pod 的出方向流量之和
网络入包量
个/s
Pod 的入方向包数之和
网络出包量
个/s
Pod 的出方向包数之和
块设备读取大小
Mbytes
Pod 的块设备读取大小
块设备读取次数
Pod 的块设备读取次数
块设备写入大小
Mbytes
Pod 的块设备写入大小
块设备写入次数
Pod 的块设备写入次数
rootfs使用量
字节
Pod 中 rootfs 使用量
GPU 申请量
Pod 中 GPU 申请量
GPU 内存利用率(占节点)
%
Pod 中 GPU 内存使用量占节点 GPU 内存总量之比
GPU 内存利用率(占 request)
%
Pod 中 GPU 内存使用量占 GPU 内存申请量之比
GPU 利用率(占节点)
%
Pod 中 GPU 使用量占节点 GPU 总量之比
GPU 利用率(占 request)
%
Pod 中 GPU 使用量占 GPU 申请量之比
GPU 内存申请量
Mbytes
Pod 中 GPU 内存申请量
GPU 内存使用量
Mbytes
Pod 中 GPU 内存使用量
GPU 使用量
Pod 中 GPU 使用量
GPU 显存使用率
%
Pod 中 GPU 显存使用量占显存总量的百分比
GPU 编码资源使用率
%
Pod 中 GPU 编码资源使用率
GPU 解码资源使用率
%
Pod 中 GPU 解码资源使用率
GPU 流处理器使用率
%
Pod 中 GPU 流处理器使用率

Container 监控及告警指标

指标
单位
说明
CPU 使用量
Container 的 CPU 使用量
CPU 利用率(占节点)
%
Container 的 CPU 使用量占节点总量之比
CPU 利用率(占 Request)
%
Container 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit)
%
Container 的 CPU 使用量和设置的 Limit 值之比
内存使用量
Mbytes
Container 的内存使用量,含缓存(来源:container_memory_usage_bytes)
内存使用量(不包含 Cache)
Mbytes
Container 的内存使用量,不含缓存(来源:container_memory_usage_bytes - container_memory_cache)
内存使用量(working_set)
Mbytes
Container 的工作集内存使用量(来源:container_memory_working_set_bytes)
内存利用率(占节点)
%
Container 的内存使用量(含缓存)占节点总量之比
内存利用率(占节点,不包含 Cache)
%
Container 的内存使用量(不含缓存)占节点总量之比
内存利用率(占节点,working_set)
%
Container 的工作集内存使用量占节点总量之比
内存利用率(占 Request)
%
Container 的内存使用量和设置的 Request 值之比
内存利用率(占 Request,不包含 Cache)
%
Container 的内存使用量(不含缓存)和设置的 Request 值之比
内存利用率(占 Request,working_set)
%
Container 的工作集内存使用量与设置的 Request 值之比
内存利用率(占 Limit)
%
Container 的内存使用量和设置的 Limit 值之比
内存利用率(占 Limit,不包含 Cache)
%
Container 的内存使用量(不含缓存)和设置的 Limit 值之比
内存利用率(占 Limit,working_set)
%
Container 的工作集内存使用量与设置的 Limit 值之比
块设备读带宽
B/s
Container 从硬盘读取数据的吞吐量
块设备写带宽
B/s
Container 把数据写入硬盘的吞吐量
块设备读 IOPS
次/s
Container 从硬盘读取数据的 IO 次数
块设备写 IOPS
次/s
Container 把数据写入硬盘的 IO 次数