用户指南

最佳实践

API 文档

监控和告警

最近更新时间:2020-06-29 15:10:55

概述

本文档介绍弹性容器服务(EKS)提供的集群、工作负载、Pod、Container 4个层面的监控数据收集和展示功能。

前提条件

已创建状态为“运行中”的弹性集群,详情请参见 创建集群

操作步骤

  1. 登录容器服务控制台,选择左侧导航栏中的【弹性集群】。
  2. 在“弹性集群”列表页面,选择需操作的集群 ID。
  3. 在集群资源管理页面,参考以下文档查看监控及设置告警:

监控及告警指标列表

监控

目前 EKS 提供了以下维度的监控指标,所有指标均为统计周期内的平均值

注意:

集群监控指标

指标 单位 说明
CPU 使用量 集群当前所有运行中 Pod 使用的 CPU 规模
内存使用量 B 集群当前所有运行中 Pod 使用的内存规模

工作负载监控指标

指标 单位 说明
Pod 重启次数 工作负载内所有 Pod 的重启次数之和
CPU 使用量 工作负载内所有 Pod 的 CPU 使用量
CPU 利用率(占 Pod 规格) % 工作负载内所有 Pod 的 CPU 使用量占分配资源总量之比
内存使用量 B 工作负载内所有 Pod 的内存使用量
内存利用率(占 Pod 规格) % 工作负载内所有 Pod 的内存使用量占分配资源总量之比

Pod 监控指标

指标 单位 说明
异常状态 - Pod 的状态,正常或异常
CPU 使用量 Pod 的 CPU 使用量
CPU 利用率(占 Request) % Pod 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit) % Pod 的 CPU 使用量和设置的 Limit 值之比
CPU 利用率(占 Pod 规格) % Pod 的 CPU 使用量占 Pod 分配总量之比
内存使用量 B Pod 的内存使用量,含缓存
内存利用率(占 Request) % Pod 的内存使用量和设置的 Request 值之比
内存利用率(占 Limit) % Pod 的内存使用量和设置的 Limit 值之比
内存利用率(占 Pod 规格) % Pod 的内存使用量占 Pod 分配总量之比

Container 监控指标

指标 单位 说明
CPU 使用量 Container 的 CPU 使用量
CPU 利用率(占 Request) % Container 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit) % Container 的 CPU 使用量和设置的 Limit 值之比
内存使用量 B Container 的内存使用量,含缓存
内存利用率(占 Request) % Container 的内存使用量和设置的 Request 值之比
内存利用率(占 Limit) % Container 的内存使用量和设置的 Limit 值之比

告警

目前 EKS 提供了以下维度的告警指标,所有指标均为统计周期内的平均值

Pod 告警指标

指标 单位 说明
CPU 利用率(占 Pod 规格) % Pod 的 CPU 使用量占 Pod 分配总量之比
内存利用率(占 Pod 规格) % Pod 的内存使用量占 Pod 分配总量之比
CPU 利用率(占 Request) % Pod 的 CPU 使用量和设置的 Request 值之比
内存利用率(占 Request) % Pod 的内存使用量和设置的 Request 值之比
CPU 利用率(占 Limit) % Pod 的 CPU 使用量和设置的 Limit 值之比
内存利用率(占 Limit) % Pod 的内存使用量和设置的 Limit 值之比
Pod 重启次数 Pod 的重启次数
Pod Ready - Pod 的状态,默认 False 时告警
CPU 使用量 Pod 的 CPU 使用量
内存使用量 MB Pod 的内存使用量,含缓存
目录