目前容器服务提供了以下维度的监控告警指标,所有指标均为统计周期内的平均值。
集群监控及告警指标
指标 | 单位 | 说明 |
Pod 数量 | 个 | 集群中 Pod 个数 |
Node 数量 | 个 | 集群中 Node 个数 |
CPU 总配置 | 核 | 集群的 CPU 总配置量 |
CPU 使用量 | 核 | 集群的 CPU 使用量 |
CPU 利用率 | % | 集群的 CPU 利用率 |
CPU 使用量(弹性容器) | 核 | 弹性容器的 CPU 使用量(若使用节点池的虚拟节点) |
块设备读取大小 | Mbytes | 集群硬盘的使用总量 |
块设备读取次数 | 次 | 集群硬盘读取总次数 |
块设备写入大小 | Mbytes | 集群硬盘写入数据量 |
块设备写入次数 | 次 | 集群硬盘写入总次数 |
内存总和 | Gbytes | 集群内存总量 |
内存使用量 | Mbytes | 集群内存使用量总和 |
内存利用率 | % | 集群内存利用率 |
内存使用量(弹性容器) | Mbytes | 弹性容器的内存使用量(若使用节点池的虚拟节点) |
内存使用量(弹性容器,不含 Cache) | Mbytes | 弹性容器的内存(不含 Cache)使用量(若使用节点池虚拟节点) |
网络入流量 | Mbytes | 集群网络入流量 |
网络带宽 | Mbps | 集群网络带宽 |
网络入包量 | 个/s | 集群网络入包量 |
网络出流量 | Mbytes | 集群网络出流量 |
网络出包量 | 个/s | 集群网络出包量 |
GPU 内存总量 | Gbytes | 集群 GPU 内存总量 |
GPU 内存使用量 | Mbytes | 集群 GPU 内存总使用量 |
GPU 总量 | 卡 | 集群 GPU 总量 |
GPU 使用量 | 卡 | 集群整体的 CPU 利用率 |
显存利用率 | % | GPU 显存利用率 |
GPU 利用率 | % | 集群 GPU 利用率 |
Master&Etcd 和普通节点监控及告警指标
指标 | 单位 | 说明 |
Pod 重启次数 | 次 | 节点内所有 Pod 的重启次数之和 |
Node 状态 | - | 节点的状态,正常或异常 |
CPU 利用率 | % | 节点内所有 Pod 的 CPU 使用量占节点总量之比 |
CPU 分配量 | 核 | 节点内所有 Pod 的 CPU 分配量总和 |
内存利用率 | % | 节点内所有 Pod 的工作集内存使用量占节点总量之比 |
内存分配量 | Mbps | 节点内所有 Pod 的内存分配量总和 |
内网入带宽 | Mbps | 节点内所有 Pod 的内网入方向带宽之和 |
内网出带宽 | Mbps | 节点内所有 Pod 的内网出方向带宽之和 |
外网入带宽 | Mbps | 节点内所有 Pod 的外网入方向带宽之和 |
外网出带宽 | Mbps | 节点内所有 Pod 的外网出方向带宽之和 |
TCP 连接数 | 个 | 节点保持的 TCP 连接数 |
GPU 使用量 | 卡 | 节点内所有 Pod 的 GPU 使用量之和 |
GPU 内存使用量 | Mbps | 节点内所有 Pod 的 GPU 内存使用量之和 |
GPU 内存利用率 | % | 节点内所有 Pod 的 GPU 内存使用量占节点 GPU 内存总量之比 |
GPU 利用率 | % | 节点内所有 Pod 的 GPU 使用量占节点 GPU 总量之比 |
Node 的 eni- IP 分配量 | 个 | Node 的弹性网卡上已分配的 IP 数量 |
Node 的 direct-eni 分配量 | 个 | Node 的 direct-eni 上已分配的 IP 数量 |
GlobalRouter模式集群中节点 Pod CIDR 已经分配的 IP 数 | 个 | GlobalRouter 模式的 K8S 集群中,一个节点的 Pod CIDR 中已分配的 IP 个数 |
GlobalRouter模式集群中节点可以分配的 IP 数 | 个 | GlobalRouter 模式的 K8S 集群中,一个节点中总共可分配的 IP 个数 |
工作负载监控及告警指标
指标 | 单位 | 说明 |
工作负载异常 | - | 工作负载是否为异常状态,非0即为异常 |
Pod 数量 | 个 | 工作负载内所有 Pod 的数量和 |
Pod 重启次数 | 次 | 工作负载内所有 Pod 的重启次数之和 |
CPU 使用量 | 核 | 工作负载内所有 Pod 的 CPU 使用量 |
CPU 利用率 | % | 工作负载内所有 Pod 的 CPU 使用量占总量之比 |
内存使用量 | Mbytes | 工作负载内所有 Pod 的内存使用量之和 |
内存使用量(不含 Cache) | Mbytes | 工作负载内所有 Pod 的内存使用量(不含 Cache)之和 |
内存使用量(working_set) | Mbytes | 工作负载内所有 Pod 的工作集内存使用量之和 |
内存利用率 | % | 工作负载内所有 Pod 的内存使用量占总量之比 |
内存利用率(不含 Cache) | % | 工作负载内所有 Pod 的内存使用量(不含 Cache)占所有 Pod 内存总量之比 |
内存利用率(working_set) | % | 工作负载内所有 Pod 的工作集内存使用量占总量之比 |
网络入带宽 | bps | 工作负载内所有 Pod 的入方向带宽之和 |
网络出带宽 | bps | 工作负载内所有 Pod 的出方向带宽之和 |
网络入流量 | B | 工作负载内所有 Pod 的入方向流量之和 |
网络出流量 | B | 工作负载内所有 Pod 的出方向流量之和 |
网络入包量 | 个/s | 工作负载内所有 Pod 的入方向包数之和 |
网络出包量 | 个/s | 工作负载内所有 Pod 的出方向包数之和 |
块设备读取大小 | Mbytes | 工作负载内所有 Pod 的块设备读取大小之和 |
块设备读取次数 | 次 | 工作负载内所有 Pod 的块设备读取次数之和 |
块设备写入大小 | Mbytes | 工作负载内所有 Pod 的块设备写入大小之和 |
块设备写入次数 | 次 | 工作负载内所有 Pod 的块设备写入次数之和 |
GPU 使用量 | 卡 | 工作负载内所有 Pod 的 GPU 使用量之和 |
GPU 内存使用量 | Mbps | 工作负载内所有 Pod 的 GPU 内存使用量之和 |
GPU 内存利用率 | % | 工作负载内所有 Pod 的 GPU 内存使用量与 GPU 内存总量之比 |
GPU 利用率 | % | 工作负载内所有 Pod 的 GPU 使用量与 GPU 总量之比 |
Pod 监控及告警指标
指标 | 单位 | 说明 |
Pod 重启次数 | 次 | Pod 的重启次数 |
异常状态 | - | Pod 的状态,正常或异常 |
CPU 使用量 | 核 | Pod 的 CPU 使用量 |
CPU 利用率(占节点) | % | Pod 的 CPU 使用量占节点总量之比 |
CPU 利用率(占 Request) | % | Pod 下设置了 Request 容器的 CPU 使用量之和与设置的 Request 值之和的比值(没设置 Request 的容器不参与计算) |
CPU 利用率(占 Limit) | % | Pod 下设置了 Limit 容器的 CPU 使用量之和与设置的 Limit 之和的比值(没设置 Limit 的容器不参与计算) |
内存使用量 | Mbytes | Pod 中 Container 的内存使用量(含缓存)之和(来源:container_memory_usage_bytes) |
内存使用量(不包含 Cache) | Mbytes | Pod 中 Container 的内存使用量(不含缓存)之和(来源:container_memory_usage_bytes - container_memory_cache) |
内存使用量(working_set) | Mbytes | Pod 中 Container 的工作集内存使用量(来源:container_memory_working_set_bytes) |
内存利用率(占节点) | % | Pod 中 Container 的内存使用量(含缓存)占节点总量之比 |
内存利用率(占节点,不包含 Cache) | % | Pod 中 Container 的内存使用量(不含缓存)占节点总量之比 |
内存利用率(占节点,working_set) | % | Pod 中 Container 的工作集内存使用量占节点总量之比 |
内存利用率(占 Request) | % | Pod 下设置了 Request 容器的内存使用量之和与设置的 Request 值之和的比值(没设置 Request 的容器不参与计算) |
内存利用率(占 Request,不包含 Cache) | % | Pod 下设置了 Request 容器的内存使用量(不含缓存)之和与设置的 Request 值之和的比值(没设置 Request 的容器不参与计算) |
内存利用率(占 Request,working_set) | % | Pod 下设置了 Request 容器的工作集内存使用量之和与设置的 Request 值之和的比值(没设置 Request 的容器不参与计算) |
内存利用率(占 Limit) | % | Pod 下设置了 Limit 容器的内存使用量之和与设置的 Limit 值之和的比值(没设置 Limit 的容器不参与计算) |
内存利用率(占 Limit,不包含 Cache) | % | Pod 下设置了 Limit 容器的内存使用量(不含缓存)之和与设置的 Limit 值之和的比值(没设置 Request 的容器不参与计算) |
内存利用率(占 Limit,working_set) | % | Pod 下设置了 Limit 容器的工作集内存使用量之和与设置的 Limit 值之和的比值(没设置 Limit 的容器不参与计算) |
网络入带宽 | Mbps | Pod 的入方向带宽之和 |
网络出带宽 | Mbps | Pod 的出方向带宽之和 |
网络入流量 | Mbytes | Pod 的入方向流量之和 |
网络出流量 | Mbytes | Pod 的出方向流量之和 |
网络入包量 | 个/s | Pod 的入方向包数之和 |
网络出包量 | 个/s | Pod 的出方向包数之和 |
块设备读取大小 | Mbytes | Pod 的块设备读取大小 |
块设备读取次数 | 次 | Pod 的块设备读取次数 |
块设备写入大小 | Mbytes | Pod 的块设备写入大小 |
块设备写入次数 | 次 | Pod 的块设备写入次数 |
rootfs使用量 | 字节 | Pod 中 rootfs 使用量 |
GPU 申请量 | 卡 | Pod 中 GPU 申请量 |
GPU 内存利用率(占节点) | % | Pod 中 GPU 内存使用量占节点 GPU 内存总量之比 |
GPU 内存利用率(占 request) | % | Pod 中 GPU 内存使用量占 GPU 内存申请量之比 |
GPU 利用率(占节点) | % | Pod 中 GPU 使用量占节点 GPU 总量之比 |
GPU 利用率(占 request) | % | Pod 中 GPU 使用量占 GPU 申请量之比 |
GPU 内存申请量 | Mbytes | Pod 中 GPU 内存申请量 |
GPU 内存使用量 | Mbytes | Pod 中 GPU 内存使用量 |
GPU 使用量 | 卡 | Pod 中 GPU 使用量 |
GPU 显存使用率 | % | Pod 中 GPU 显存使用量占显存总量的百分比 |
GPU 编码资源使用率 | % | Pod 中 GPU 编码资源使用率 |
GPU 解码资源使用率 | % | Pod 中 GPU 解码资源使用率 |
GPU 流处理器使用率 | % | Pod 中 GPU 流处理器使用率 |
Container 监控及告警指标
指标 | 单位 | 说明 |
CPU 使用量 | 核 | Container 的 CPU 使用量 |
CPU 利用率(占节点) | % | Container 的 CPU 使用量占节点总量之比 |
CPU 利用率(占 Request) | % | Container 的 CPU 使用量和设置的 Request 值之比 |
CPU 利用率(占 Limit) | % | Container 的 CPU 使用量和设置的 Limit 值之比 |
内存使用量 | Mbytes | Container 的内存使用量,含缓存(来源:container_memory_usage_bytes) |
内存使用量(不包含 Cache) | Mbytes | Container 的内存使用量,不含缓存(来源:container_memory_usage_bytes - container_memory_cache) |
内存使用量(working_set) | Mbytes | Container 的工作集内存使用量(来源:container_memory_working_set_bytes) |
内存利用率(占节点) | % | Container 的内存使用量(含缓存)占节点总量之比 |
内存利用率(占节点,不包含 Cache) | % | Container 的内存使用量(不含缓存)占节点总量之比 |
内存利用率(占节点,working_set) | % | Container 的工作集内存使用量占节点总量之比 |
内存利用率(占 Request) | % | Container 的内存使用量和设置的 Request 值之比 |
内存利用率(占 Request,不包含 Cache) | % | Container 的内存使用量(不含缓存)和设置的 Request 值之比 |
内存利用率(占 Request,working_set) | % | Container 的工作集内存使用量与设置的 Request 值之比 |
内存利用率(占 Limit) | % | Container 的内存使用量和设置的 Limit 值之比 |
内存利用率(占 Limit,不包含 Cache) | % | Container 的内存使用量(不含缓存)和设置的 Limit 值之比 |
内存利用率(占 Limit,working_set) | % | Container 的工作集内存使用量与设置的 Limit 值之比 |
块设备读带宽 | B/s | Container 从硬盘读取数据的吞吐量 |
块设备写带宽 | B/s | Container 把数据写入硬盘的吞吐量 |
块设备读 IOPS | 次/s | Container 从硬盘读取数据的 IO 次数 |
块设备写 IOPS | 次/s | Container 把数据写入硬盘的 IO 次数 |