监控及告警指标列表

最近更新时间:2019-08-05 10:19:57

监控

目前容器服务提供了以下维度的监控指标,所有指标均为统计周期内的平均值

集群监控指标

监控指标 单位 说明
CPU利用率 % 集群整体的 CPU 利用率
内存利用率 % 集群整体的内存利用率

Master&Etcd 和普通节点监控指标

监控指标 单位 说明
Pod重启次数 节点内所有 Pod 的重启次数之和
异常状态 - 节点的状态,正常或异常
CPU利用率 % 节点内所有 Pod 的 CPU 使用量占节点总量之比
内存利用率 % 节点内所有 Pod 的内存使用量占节点总量之比
内网入带宽 bps 节点内所有 Pod 的内网入方向带宽之和
内网出带宽 bps 节点内所有 Pod 的内网出方向带宽之和
外网入带宽 bps 节点内所有 Pod 的外网入方向带宽之和
外网出带宽 bps 节点内所有 Pod 的外网出方向带宽之和
TCP连接数 节点保持的 TCP 连接数

集群节点更详细的监控指标请参考 云服务器监控

集群节点数据盘更详细的监控指标请参考 云硬盘监控

工作负载监控指标

监控指标 单位 说明
Pod 重启次数 工作负载内所有 Pod 的重启次数之和
CPU 使用量 工作负载内所有 Pod 的 CPU 使用量
CPU 利用率(占集群) % 工作负载内所有 Pod 的 CPU 使用量占集群总量之比
内存使用量 B 工作负载内所有 Pod 的内存使用量
内存利用率(占集群) % 工作负载内所有 Pod 的内存使用量占集群总量之比
网络入带宽 bps 工作负载内所有 Pod 的入方向带宽之和
网络出带宽 bps 工作负载内所有 Pod 的出方向带宽之和
网络入流量 B 工作负载内所有 Pod 的入方向流量之和
网络出流量 B 工作负载内所有 Pod 的出方向流量之和
网络入包量 个/s 工作负载内所有 Pod 的入方向包数之和
网络出包量 个/s 工作负载内所有 Pod 的出方向包数之和

如果工作负载对集群外部提供服务,绑定的 Service 更详细的网络监控指标请参考 负载均衡监控

Pod 监控指标

监控指标 单位 说明
异常状态 - Pod 的状态,正常或异常
CPU 使用量 Pod 的 CPU 使用量
CPU 利用率(占节点) % Pod 的 CPU 使用量占节点总量之比
CPU 利用率(占 Request) % Pod 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit) % Pod 的 CPU 使用量和设置的 Limit 值之比
内存使用量 B Pod 的内存使用量,含缓存
内存使用量(不包含 Cache) B Pod 内所有 Container 的真实内存使用量(不含缓存)
内存利用率(占节点) % Pod 的内存使用量占节点总量之比
内存利用率(占节点,不包含 Cache) % Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比
内存利用率(占 Request) % Pod 的内存使用量和设置的 Request 值之比
内存利用率(占 Request,不包含Cache) % Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Request 值之比
内存利用率(占 Limit) % Pod 的内存使用量和设置的 Limit 值之比
内存利用率(占 Limit,不包含 Cache) % Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比
网络入带宽 bps Pod 的入方向带宽之和
网络出带宽 bps Pod 的出方向带宽之和
网络入流量 B Pod 的入方向流量之和
网络出流量 B Pod 的出方向流量之和
网络入包量 个/s Pod 的入方向包数之和
网络出包量 个/s Pod 的出方向包数之和

Container 监控指标

监控指标 单位 说明
CPU 使用量 Container 的 CPU 使用量
CPU 利用率(占节点) % Container 的 CPU 使用量占节点总量之比
CPU 利用率(占 Request) % Container 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit) % Container 的 CPU 使用量和设置的 Limit 值之比
内存使用量 B Container 的内存使用量,含缓存
内存使用量(不包含 Cache) B Container 的真实内存使用量(不含缓存)
内存利用率(占节点) % Container 的内存使用量占节点总量之比
内存利用率(占节点,不包含 Cache) % Container 的真实内存使用量(不含缓存)占节点总量之比
内存利用率(占 Request) % Container 的内存使用量和设置的 Request 值之比
内存利用率(占 Request,不包含 Cache) % Container 的真实内存使用量(不含缓存)和设置的 Request 值之比
内存利用率(占 Limit) % Container 的内存使用量和设置的 Limit 值之比
内存利用率(占 Limit,不包含 Cache) % Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比
块设备读带宽 B/s Container 从硬盘读取数据的吞吐量
块设备写带宽 B/s Container 把数据写入硬盘的吞吐量
块设备读 IOPS 次/s Container 从硬盘读取数据的 IO 次数
块设备写 IOPS 次/s Container 把数据写入硬盘的 IO 次数

告警

目前容器服务提供了以下维度的告警指标,所有指标均为统计周期内的平均值

集群告警指标

监控指标 单位 说明
CPU 利用率 % 集群整体的 CPU 利用率
内存利用率 % 集群整体的内存利用率
CPU 分配率 % 集群所有容器设置的 CPU Request 之和与集群总可分配 CPU 之比
内存分配率 % 集群所有容器设置的内存 Request 之和与集群总可分配内存之比
Apiserver 正常 - Apiserver 状态,默认 False 时告警,仅独立集群支持该指标
Etcd 正常 - Etcd 状态,默认 False 时告警,仅独立集群支持该指标
Scheduler 正常 - Scheduler 状态,默认 False 时告警,仅独立集群支持该指标
Controll Manager 正常 - Controll Manager 状态,默认 False 时告警,仅独立集群支持该指标

节点告警指标

监控指标 单位 说明
CPU 利用率 % 节点内所有 Pod 的 CPU 使用量占节点总量之比
内存利用率 % 节点内所有 Pod 的内存使用量占节点总量之比
节点上 Pod 重启次数 节点内所有 Pod 重启次数之和
Node Ready - 节点状态,默认 False 时告警

集群节点更详细的指标告警请参考 云服务器监控云监控创建告警策略

集群节点数据盘更详细的指标告警请参考 云硬盘监控云监控创建告警策略

Pod 告警指标

监控指标 单位 说明
CPU 利用率(占节点) % Pod 的 CPU 使用量占节点总量之比
内存利用率(占节点) % Pod 的内存使用量占节点总量之比
实际内存利用率(占节点) % Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比
CPU 利用率(占 Limit) % Pod 的CPU使用量和设置的 Limit 值之比
内存利用率(占 Limit) % Pod 的内存使用量和设置的 Limit 值之比
实际内存利用率(占 Limit) % Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比
Pod 重启次数 Pod 的重启次数
Pod Ready - Pod 的状态,默认 False 时告警
CPU 使用量 Pod 的 CPU 使用量
内存使用量 MB Pod 的内存使用量,含缓存
实际内存使用量 MB Pod 内所有 Container 的真实内存使用量之和,不含缓存