前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《TKE学习》TKE服务中的告警服务 (十)

《TKE学习》TKE服务中的告警服务 (十)

原创
作者头像
baron
发布2019-11-27 16:48:47
1.4K0
发布2019-11-27 16:48:47
举报

概述

良好的监控环境为腾讯云容器服务高可靠性、高可用性和高性能提供重要保证。您可以方便为不同资源收集不同维度的监控数据,能方便掌握资源的使用状况,轻松定位故障。

腾讯云容器服务提供集群、节点、工作负载、Pod、Container 5个层面的监控数据收集和展示功能。

收集监控数据有助于您建立容器集群性能的正常标准。通过在不同时间、不同负载条件下测量容集群的性能并收集历史监控数据,您可以较为清楚的了解容器集群和服务运行时的正常性能,并能快速根据当前监控数据判断服务运行时是否处于异常状态,及时找出解决问题的方法。例如,您可以监控服务的 CPU 利用率、内存使用率和磁盘 I/O。

操作场景

腾讯云容器服务支持为集群设置集群、节点、Pod 3个维度的告警。为您的集群设置合理的告警,有助于避免和快速发现集群异常,降低业务风险。

TKE实践

  • 在容器服务的控制面板点击告警设置选项,选择新建。
Snipaste_2019-11-27_14-15-55.png
Snipaste_2019-11-27_14-15-55.png
  • 根据需求选择告警维度并设置合适的告警指标,如图:
Snipaste_2019-11-27_14-17-12.png
Snipaste_2019-11-27_14-17-12.png

策略类型共有三个维度:集群、节点、pod。各个维度的指标有一定的不同。

集群告警指标

web页面显示如图:

Snipaste_2019-11-27_14-34-08.png
Snipaste_2019-11-27_14-34-08.png

指标

单位

说明

CPU 利用率

%

集群整体的 CPU 利用率

内存利用率

%

集群整体的内存利用率

CPU 分配率

%

集群所有容器设置的 CPU Request 之和与集群总可分配 CPU 之比

内存分配率

%

集群所有容器设置的内存 Request 之和与集群总可分配内存之比

Apiserver 正常

Apiserver 状态,默认 False 时告警,仅独立集群支持该指标

Etcd 正常

Etcd 状态,默认 False 时告警,仅独立集群支持该指标

Scheduler 正常

Scheduler 状态,默认 False 时告警,仅独立集群支持该指标

Controll Manager 正常

Controll Manager 状态,默认 False 时告警,仅独立集群支持该指标

节点告警指标

web页面显示如图:

Snipaste_2019-11-27_14-34-23.png
Snipaste_2019-11-27_14-34-23.png

指标

单位

说明

CPU 利用率

%

节点内所有 Pod 的 CPU 使用量占节点总量之比

内存利用率

%

节点内所有 Pod 的内存使用量占节点总量之比

节点上 Pod 重启次数

节点内所有 Pod 重启次数之和

Node Ready

节点状态,默认 False 时告警

Pod 告警指标

web页面显示如图:

Snipaste_2019-11-27_14-34-36.png
Snipaste_2019-11-27_14-34-36.png

指标

单位

说明

CPU 利用率(占节点)

%

Pod 的 CPU 使用量占节点总量之比

内存利用率(占节点)

%

Pod 的内存使用量占节点总量之比

实际内存利用率(占节点,不包含 Cache)

%

Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比

CPU 利用率(占 Limit)

%

Pod 的CPU使用量和设置的 Limit 值之比

内存利用率(占 Limit)

%

Pod 的内存使用量和设置的 Limit 值之比

实际内存利用率(占 Limit,不包含 Cache)

%

Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比

Pod 重启次数

Pod 的重启次数

Pod Ready

Pod 的状态,默认 False 时告警

CPU 使用量

Pod 的 CPU 使用量

内存使用量

MB

Pod 的内存使用量,含缓存

实际内存使用量

MB

Pod 内所有 Container 的真实内存使用量之和,不含缓存

  • 选择告警接受组以及告警渠道,如图:
Snipaste_2019-11-27_14-39-44.png
Snipaste_2019-11-27_14-39-44.png
  • 点击提交完成告警设置。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概述
  • 操作场景
  • TKE实践
    • 集群告警指标
      • 节点告警指标
        • Pod 告警指标
        相关产品与服务
        容器服务
        腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档