监控与告警

最近更新时间:2024-06-02 16:05:31

我的收藏
监控与告警是保证云服务器高可靠性、高可用性和高性能的重要部分。创建云服务器时,默认免费开通腾讯云可观测平台。您可通过腾讯云可观测平台分析和实时告警,获取主机监控指标。 本文档概述为云服务器提供的监控与告警功能,更多详细内容可参见 腾讯云可观测平台产品文档

概述

云服务器监控与告警是实时监控云服务器的管理工具。监控与告警功能可以展示最全、最详细的监控数据,实时对云服务器提取关键指标,以监控图表形式展示。方便您全面地了解云服务器的资源使用率、性能和运行状况。同时支持设置自定义告警阈值,并根据您自定义的规则发送通知。

基本功能

控制台为云服务器监控与告警提供以下功能的入口:
模块
能力
主要功能
腾讯云可观测平台概况
提供总体概况、告警概况、总体监控信息一览
支持用户自定义告警阈值
当前支持云服务器告警设置服务,在云服务器指标发生异常时,及时通知您处理
查看云产品监控视图
当前云服务器监控视图
预设监控面板
自定义监控面板
提供云服务器监控场景的跨实例汇聚数据、实时/历史数据展示、相似指标对比展示、图表联动等灵活的个性化图表功能
监控流量
查看用户整体带宽信息
继承开源 Prometheus 监控能力
可进行应用或者服务内部的一些状态进行监控,如请求处理数,下单数等,也可以对一些核心逻辑的处理耗时进行监控,如请求外部服务的耗时情况等,详情可参考 云服务器场景下自定义接入
提供开源可视化 Grafana 服务
预设云服务器监控面板,包含多种常用指标

使用场景

日常管理场景:登录腾讯云可观测平台控制台,查看各个腾讯云可观测平台的运行状态。
及时处理异常场景:在监控数据达到告警阈值时发送告警信息,让您及时获取异常通知,查询异常原因。
及时扩容场景:对带宽、连接数、磁盘使用率等监控项设置告警规则后,可以让您方便的了解云服务现状,在业务量变大后及时收到告警通知进行服务扩容。

监控内容

监控实例性能基准,您应至少监控以下各项。您可前往 云服务器控制台,在实例详情页面中获取相关监控信息。
监控项
监控指标
说明
CPU 利用率
cpu_usage
CPU 使用比率,通过服务器内部监控组件采集上报,数据更加精准。
内存利用率
mem_usage
用户实际使用的内存量与总内存量之比,不包括缓冲区与系统缓存占用的内存。
内网出带宽
lan_outtraffic
内网网卡的平均每秒出流量。
内网入带宽
lan_intraffic
内网网卡的平均每秒入流量。
外网出带宽
wan_outtraffic
外网平均每秒出流量,最小粒度数据为10秒,由总流量/10秒计算得出。
外网入带宽
wan_intraffic
外网平均每秒入流量。
磁盘使用率
disk_usage
磁盘使用率。
磁盘 I/O 等待时间
disk_io_await
硬盘 I/O 平均每次操作的等待时间。

监控数据

监控间隔:当前腾讯云可观测平台提供10秒、1分钟、5分钟、1小时、1天多种监控数据统计粒度,云服务器能支持1分钟监控粒度,即每隔1分钟统计一次数据,默认情况间隔5分钟。
数据存储:秒级粒度监控数据存储1天;1分钟、5分钟粒度监控数据存储31天;1小时粒度监控数据存储93天;1天粒度监控数据存储半年。
告警展示:数据展示为易读的图表形式,控制台集成了所有产品的监控数据,更有利于用户获得整体性的运行概览。
告警设置:可设置监控指标界限值,当到达条件时,及时发送告警信息至关心的群体中。详情请参见 创建告警策略
Dashboard 设置:可针对监控指标设置 Dashboard, 通过 Dashboard 动态分析指标异常原因。也可以实时观察指标变化情况,及时进行资源扩容。详情请参见 新建 Dashboard