监控及告警指标列表
最近更新时间:2022-04-22 17:19:35
目前容器服务提供了以下维度的监控告警指标,所有指标均为统计周期内的平均值。
集群监控及告警指标
指标 |
单位 |
说明 |
Pod 数量 |
个 |
集群中 Pod 个数 |
Node 数量 |
个 |
集群中 Node 个数 |
CPU 总配置 |
核 |
集群的 CPU 总配置量 |
CPU 使用量 |
核 |
集群的 CPU 使用量 |
CPU 利用率 |
% |
集群的 CPU 利用率 |
CPU 使用量(弹性容器) |
核 |
弹性容器的 CPU 使用量(若使用节点池的虚拟节点) |
块设备读取大小 |
Mbytes |
集群硬盘的使用总量 |
块设备读取次数 |
次 |
集群硬盘读取总次数 |
块设备写入大小 |
Mbytes |
集群硬盘写入数据量 |
块设备写入次数 |
次 |
集群硬盘写入总次数 |
内存总和 |
Gbytes |
集群内存总量 |
内存使用量 |
Mbytes |
集群内存使用量总和 |
内存利用率 |
% |
集群内存利用率 |
内存使用量(弹性容器) |
Mbytes |
弹性容器的内存使用量(若使用节点池的虚拟节点) |
内存使用量(弹性容器,不含 Cache) |
Mbytes |
弹性容器的内存(不含 Cache)使用量(若使用节点池虚拟节点) |
网络入流量 |
Mbytes |
集群网络入流量 |
网络带宽 |
Mbps |
集群网络带宽 |
网络入包量 |
个/s |
集群网络入包量 |
网络出流量 |
Mbytes |
集群网络出流量 |
网络出包量 |
个/s |
集群网络出包量 |
GPU 内存总量 |
Gbytes |
集群 GPU 内存总量 |
GPU 内存使用量 |
Mbytes |
集群 GPU 内存总使用量 |
GPU 总量 |
卡 |
集群 GPU 总量 |
GPU 使用量 |
卡 |
集群整体的 CPU 利用率 |
显存利用率 |
% |
GPU 显存利用率 |
GPU 利用率 |
% |
集群 GPU 利用率 |
Master&Etcd 和普通节点监控及告警指标
指标 |
单位 |
说明 |
Pod 重启次数 |
次 |
节点内所有 Pod 的重启次数之和 |
Node 状态 |
- |
节点的状态,正常或异常 |
CPU 利用率 |
% |
节点内所有 Pod 的 CPU 使用量占节点总量之比 |
CPU 分配量 |
核 |
节点内所有 Pod 的 CPU 分配量总和 |
内存利用率 |
% |
节点内所有 Pod 的工作集内存使用量占节点总量之比 |
内存分配量 |
Mbps |
节点内所有 Pod 的内存分配量总和 |
内网入带宽 |
Mbps |
节点内所有 Pod 的内网入方向带宽之和 |
内网出带宽 |
Mbps |
节点内所有 Pod 的内网出方向带宽之和 |
外网入带宽 |
Mbps |
节点内所有 Pod 的外网入方向带宽之和 |
外网出带宽 |
Mbps |
节点内所有 Pod 的外网出方向带宽之和 |
TCP 连接数 |
个 |
节点保持的 TCP 连接数 |
GPU 使用量 |
卡 |
节点内所有 Pod 的 GPU 使用量之和 |
GPU 内存使用量 |
Mbps |
节点内所有 Pod 的 GPU 内存使用量之和 |
GPU 内存利用率 |
% |
节点内所有 Pod 的 GPU 内存使用量占节点 GPU 内存总量之比 |
GPU 利用率 |
% |
节点内所有 Pod 的 GPU 使用量占节点 GPU 总量之比 |
Node 的 eni- IP 分配量 |
个 |
Node 的弹性网卡上已分配的 IP 数量 |
Node 的 direct-eni 分配量 |
个 |
Node 的 direct-eni 上已分配的 IP 数量 |
GlobalRouter模式集群中节点 Pod CIDR 已经分配的 IP 数 |
个 |
GlobalRouter 模式的 K8S 集群中,一个节点的 Pod CIDR 中已分配的 IP 个数 |
GlobalRouter模式集群中节点可以分配的 IP 数 |
个 |
GlobalRouter 模式的 K8S 集群中,一个节点中总共可分配的 IP 个数 |
集群节点更详细的指标监控及告警请参考 云服务器监控 和 云监控创建告警策略。
集群节点数据盘更详细的指标监控及告警请参考 云硬盘监控 和 云监控创建告警策略。
工作负载监控及告警指标
指标 |
单位 |
说明 |
工作负载异常 |
- |
工作负载是否为异常状态,非0即为异常 |
Pod 数量 |
个 |
工作负载内所有 Pod 的数量和 |
Pod 重启次数 |
次 |
工作负载内所有 Pod 的重启次数之和 |
CPU 使用量 |
核 |
工作负载内所有 Pod 的 CPU 使用量 |
CPU 利用率 |
% |
工作负载内所有 Pod 的 CPU 使用量占总量之比 |
内存使用量 |
Mbytes |
工作负载内所有 Pod 的内存使用量之和 |
内存使用量(不含 Cache) |
Mbytes |
工作负载内所有 Pod 的内存使用量(不含 Cache)之和 |
内存使用量(working_set) |
Mbytes |
工作负载内所有 Pod 的工作集内存使用量之和 |
内存利用率 |
% |
工作负载内所有 Pod 的内存使用量占总量之比 |
内存利用率(不含 Cache) |
% |
工作负载内所有 Pod 的内存使用量(不含 Cache)占所有 Pod 内存总量之比 |
内存利用率(working_set) |
% |
工作负载内所有 Pod 的工作集内存使用量占总量之比 |
网络入带宽 |
bps |
工作负载内所有 Pod 的入方向带宽之和 |
网络出带宽 |
bps |
工作负载内所有 Pod 的出方向带宽之和 |
网络入流量 |
B |
工作负载内所有 Pod 的入方向流量之和 |
网络出流量 |
B |
工作负载内所有 Pod 的出方向流量之和 |
网络入包量 |
个/s |
工作负载内所有 Pod 的入方向包数之和 |
网络出包量 |
个/s |
工作负载内所有 Pod 的出方向包数之和 |
块设备读取大小 |
Mbytes |
工作负载内所有 Pod 的块设备读取大小之和 |
块设备读取次数 |
次 |
工作负载内所有 Pod 的块设备读取次数之和 |
块设备写入大小 |
Mbytes |
工作负载内所有 Pod 的块设备写入大小之和 |
块设备写入次数 |
次 |
工作负载内所有 Pod 的块设备写入次数之和 |
GPU 使用量 |
卡 |
工作负载内所有 Pod 的 GPU 使用量之和 |
GPU 内存使用量 |
Mbps |
工作负载内所有 Pod 的 GPU 内存使用量之和 |
GPU 内存利用率 |
% |
工作负载内所有 Pod 的 GPU 内存使用量与 GPU 内存总量之比 |
GPU 利用率 |
% |
工作负载内所有 Pod 的 GPU 使用量与 GPU 总量之比 |
如果工作负载对集群外部提供服务,绑定的 Service 更详细的网络监控指标请参考 负载均衡监控。
Pod 监控及告警指标
指标 |
单位 |
说明 |
Pod 重启次数 |
次 |
Pod 的重启次数 |
异常状态 |
- |
Pod 的状态,正常或异常 |
CPU 使用量 |
核 |
Pod 的 CPU 使用量 |
CPU 利用率(占节点) |
% |
Pod 的 CPU 使用量占节点总量之比 |
CPU 利用率(占 Request) |
% |
Pod 的 CPU 使用量和设置的 Request 值之比 |
CPU 利用率(占 Limit) |
% |
Pod 的 CPU 使用量和设置的 Limit 值之比 |
内存使用量 |
Mbytes |
Pod 中 Container 的内存使用量(含缓存)之和(来源:container_memory_usage_bytes) |
内存使用量(不包含 Cache) |
Mbytes |
Pod 中 Container 的内存使用量(不含缓存)之和(来源:container_memory_usage_bytes - container_memory_cache) |
内存使用量(working_set) |
Mbytes |
Pod 中 Container 的工作集内存使用量(来源:container_memory_working_set_bytes) |
内存利用率(占节点) |
% |
Pod 中 Container 的内存使用量(含缓存)占节点总量之比 |
内存利用率(占节点,不包含 Cache) |
% |
Pod 中 Container 的内存使用量(不含缓存)占节点总量之比 |
内存利用率(占节点,working_set) |
% |
Pod 中 Container 的工作集内存使用量占节点总量之比 |
内存利用率(占 Request) |
% |
Pod 中 Container 的内存使用量和设置的 Request 值之比 |
内存利用率(占 Request,不包含 Cache) |
% |
Pod 中 Container 的内存使用量(不含缓存)和设置的 Request 值之比 |
内存利用率(占 Request,working_set) |
% |
Pod 中 Container 的工作集内存使用量与设置的 Request 值之比 |
内存利用率(占 Limit) |
% |
Pod 中 Container 的内存使用量和设置的 Limit 值之比 |
内存利用率(占 Limit,不包含 Cache) |
% |
Pod 中 Container 的内存使用量(不含缓存)和设置的 Limit 值之比 |
内存利用率(占 Limit,working_set) |
% |
Pod 中 Container 的工作集内存使用量与设置的 Limit 值之比 |
网络入带宽 |
Mbps |
Pod 的入方向带宽之和 |
网络出带宽 |
Mbps |
Pod 的出方向带宽之和 |
网络入流量 |
Mbytes |
Pod 的入方向流量之和 |
网络出流量 |
Mbytes |
Pod 的出方向流量之和 |
网络入包量 |
个/s |
Pod 的入方向包数之和 |
网络出包量 |
个/s |
Pod 的出方向包数之和 |
Pod TCP 连接数 |
个 |
Pod 的 TCP 连接数 |
块设备读取大小 |
Mbytes |
Pod 的块设备读取大小 |
块设备读取次数 |
次 |
Pod 的块设备读取次数 |
块设备写入大小 |
Mbytes |
Pod 的块设备写入大小 |
块设备写入次数 |
次 |
Pod 的块设备写入次数 |
rootfs使用量 |
字节 |
Pod 中 rootfs 使用量 |
GPU 申请量 |
卡 |
Pod 中 GPU 申请量 |
GPU 内存利用率(占节点) |
% |
Pod 中 GPU 内存使用量占节点 GPU 内存总量之比 |
GPU 内存利用率(占 request) |
% |
Pod 中 GPU 内存使用量占 GPU 内存申请量之比 |
GPU 利用率(占节点) |
% |
Pod 中 GPU 使用量占节点 GPU 总量之比 |
GPU 利用率(占 request) |
% |
Pod 中 GPU 使用量占 GPU 申请量之比 |
GPU 内存申请量 |
Mbytes |
Pod 中 GPU 内存申请量 |
GPU 内存使用量 |
Mbytes |
Pod 中 GPU 内存使用量 |
GPU 使用量 |
卡 |
Pod 中 GPU 使用量 |
GPU 显存使用率 |
% |
Pod 中 GPU 显存使用量占显存总量的百分比 |
GPU 编码资源使用率 |
% |
Pod 中 GPU 编码资源使用率 |
GPU 解码资源使用率 |
% |
Pod 中 GPU 解码资源使用率 |
GPU 流处理器使用率 |
% |
Pod 中 GPU 流处理器使用率 |
Container 监控及告警指标
指标 |
单位 |
说明 |
CPU 使用量 |
核 |
Container 的 CPU 使用量 |
CPU 利用率(占节点) |
% |
Container 的 CPU 使用量占节点总量之比 |
CPU 利用率(占 Request) |
% |
Container 的 CPU 使用量和设置的 Request 值之比 |
CPU 利用率(占 Limit) |
% |
Container 的 CPU 使用量和设置的 Limit 值之比 |
内存使用量 |
Mbytes |
Container 的内存使用量,含缓存(来源:container_memory_usage_bytes) |
内存使用量(不包含 Cache) |
Mbytes |
Container 的内存使用量,不含缓存(来源:container_memory_usage_bytes - container_memory_cache) |
内存使用量(working_set) |
Mbytes |
Container 的工作集内存使用量(来源:container_memory_working_set_bytes) |
内存利用率(占节点) |
% |
Container 的内存使用量(含缓存)占节点总量之比 |
内存利用率(占节点,不包含 Cache) |
% |
Container 的内存使用量(不含缓存)占节点总量之比 |
内存利用率(占节点,working_set) |
% |
Container 的工作集内存使用量占节点总量之比 |
内存利用率(占 Request) |
% |
Container 的内存使用量和设置的 Request 值之比 |
内存利用率(占 Request,不包含 Cache) |
% |
Container 的内存使用量(不含缓存)和设置的 Request 值之比 |
内存利用率(占 Request,working_set) |
% |
Container 的工作集内存使用量与设置的 Request 值之比 |
内存利用率(占 Limit) |
% |
Container 的内存使用量和设置的 Limit 值之比 |
内存利用率(占 Limit,不包含 Cache) |
% |
Container 的内存使用量(不含缓存)和设置的 Limit 值之比 |
内存利用率(占 Limit,working_set) |
% |
Container 的工作集内存使用量与设置的 Limit 值之比 |
块设备读带宽 |
B/s |
Container 从硬盘读取数据的吞吐量 |
块设备写带宽 |
B/s |
Container 把数据写入硬盘的吞吐量 |
块设备读 IOPS |
次/s |
Container 从硬盘读取数据的 IO 次数 |
块设备写 IOPS |
次/s |
Container 把数据写入硬盘的 IO 次数 |