用户指南

最佳实践

API 文档

监控告警概述

最近更新时间:2021-07-19 17:27:40

概述

腾讯云容器服务 TKE 提供集群、节点、工作负载、Pod、Container 5个层面的监控数据收集和展示功能。良好的监控环境为腾讯云容器服务高可靠性、高可用性和高性能提供重要保证。通过告警配置您可以为不同资源收集不同维度的监控数据,方便掌握资源的使用状况,轻松定位故障。

收集监控数据有助于您建立容器集群性能的正常标准。通过在不同时间、不同负载条件下测量容器集群的性能并收集历史监控数据,您可以较为清楚地了解容器集群和服务运行时的正常性能,并能快速根据当前监控数据判断服务运行时是否处于异常状态,及时找出解决问题的方法。例如,您可以监控服务的 CPU 利用率、内存使用率和磁盘 I/O。

监控

容器服务的监控功能使用指引请参见 查看监控数据
目前覆盖的监控指标请参见 监控及告警指标列表

告警

为了方便您及时发现容器服务的异常状况,以保证您业务的稳定性和可靠性。建议您为所有生产集群配置必要告警,告警配置指引请参见 设置告警
目前覆盖的告警指标请参见 监控及告警指标列表

相关说明

容器服务提供的监控和告警功能主要覆盖 Kubernetes 对象的核心指标或事件,请结合 云监控控制台 提供的基础资源监控(如云服务器、块存储、负载均衡等)使用,以保证更细的指标覆盖。

若腾讯云容器服务提供的基础监控能力无法满足您的诉求,您可以使用腾讯云推出的 云原生监控 服务。云原生监控服务致力于提供轻量、稳定、高可用的 Prometheus 监控服务。保留原生 Prometheus 的特性,支持采集自定义指标,支持多集群监控,支持千万级指标上报,提供基于 Grafana 的优秀可视化能力和默认面板,提供稳定的多渠道的告警能力,无侵入式架构几乎不占用您的集群资源,高度自由化的配置方式助您构建云原生场景下最适合自己的监控平台。