操作场景
为了防止某些监控指标达到一定值后,影响您系统的正常运行。您可以对这些监控指标设定告警规则促使告警系统自动检查监控数据,并在监控数据满足条件时,发送告警通知给管理员,帮助您第一时间了解业务异常,并迅速解决。
告警指标
当前云数据库 KeeWiDB 支持的告警指标如下表所示,采集数据时间粒度支持1分钟粒度以及5分钟粒度。
实例
指标分类 | 指标中文名称 | 指标中英文名称 | 单位 | 指标解释 |
网络 | 连接数量 | connections | 个 | 客户端通过 TCP 协议连接到数据库的数量。 |
| 连接使用率 | connections_util | % | 实际 TCP 连接数量和最大连接数的百分比。 |
| 入流量 | in_flow | Mb/s | 内网入流量。 |
| 入流量使用率 | in_bandwidth_util | % | 内网入流量实际使用和最大流量的百分比。 |
| 入流量限流触发 | in_flow_limit | 次 | 入流量触发限流的次数。 |
| 出流量 | out_flow | Mb/s | 内网出流量。 |
| 出流量使用率 | out_bandwidth_util | % | 内网出流量实际使用和最大流量的百分比。 |
| 出流量限流触发 | out_flow_limit | 次 | 出流量触发限流的次数。 |
时延 | 平均执行时延 | latency_avg | ms | Proxy 到 KeeWiDB Server 的执行时延平均值。 |
| 最大执行时延 | latency_max | ms | Proxy 到 KeeWiDB Server 最大时延。 |
| 读平均时延 | latency_read | ms | Proxy 到 KeeWiDB Server 的读命令平均执行时延,读命令分类。 |
| 写平均时延 | latency_write | ms | Proxy 到 KeeWiDB Server 的写命令平均执行时延,写命令分类。 |
| 其他命令平均时延 | latency_other | ms | Proxy 到 KeeWiDB Server 的读写命令之外的命令平均执行时延。 |
| p99延迟 | latency_p99 | ms | Proxy 到 KeeWiDB Server 执行的命令99%延迟时长。 |
请求 | 总请求 | kee_commands | 次/秒 | 每秒所执行的请求次数。 |
| 读请求 | kee_cmd_read | 次/秒 | 每秒读请求的执行次数。 |
| 写请求 | kee_cmd_write | 次/秒 | 每秒写请求的执行次数。 |
| 其他请求 | kee_cmd_other | 次/秒 | 每秒读写命令之外的命令执行次数。 |
| 大 Value 请求 | cmd_big_value | 次/秒 | 每秒请求命令大小超过32KB的执行次数。 |
| Key 请求数 | cmd_key_count | 个/秒 | 每秒命令访问的 Key 个数。 |
| Mget 请求数 | cmd_mget | 个/秒 | 每秒 Mget 命令执行个数。 |
响应 | 慢查询 | kee_cmd_slow | 次/秒/ | 每秒执行请求时延大于 slowlog-log-slower-than 配置的次数。slowlog-log-slower-than 为 KeeWiDB 慢查询的评定时间,超过此配置项,将会被当成慢操作记录在慢查询日志中,单位:微秒。 |
| 执行错误 | cmd_err | 次/秒/ | 每秒命令执行错误的次数。例如,命令不存在、参数错误等情况。 |
CPU | CPU 使用率 | kee_cpu_util | % | 平均 CPU 使用率。 |
| 节点最大 CPU 使用率 | kee_max_cpu_util | % | 实例中节点(分片或者副本)最大 CPU 使用率。 |
持久内存 | 缓存命中率 | kee_keyspace_hit_util | % | Key 命中 \\ (Key命中 + KeyMiss),该指标可以反应 Cache Miss 的情况。 |
| key 总个数 | kee_keys | 个 | 实例中节点(分片或者副本)最大内存使用率。 |
| key 过期数 | kee_expire_keys | 个 | 时间窗内被淘汰的 Key 个数,对应 info 命令输出的 expired_keys。 |
| 节点最大持久内存使用率 | kee_keys | % | 实例中节点(分片或者副本)最大持久内存使用率。 |
| 持久内存使用量 | kee_keys | MB | 持久内存已经使用的容量。 |
| 持久内存使用率 | kee_keys | % | 持久内存已经使用容量与总量的比例。 |
存储 | 硬盘使用量 | kee_disk_used | MB | 硬盘使用量的统计。 |
| 硬盘使用率 | kee_disk_util | % | 硬盘使用量与硬盘总容量的占比。 |
| 节点最大硬盘使用率 | kee_max_disk_util | % | 实例中节点(分片或者副本)最大硬盘使用率。 |
| 硬盘带宽使用量 | kee_disk_bd | MB/s | 硬盘每秒所占用的带宽。 |
| 硬盘 IOPS 使用量 | kee_disk_iops | 次/秒 | 硬盘每秒输入输出的请求次数。 |
KeeWiDB 节点
指标分类 | 指标中文名称 | 指标中英文名称 | 单位 | 指标解释 |
CPU | CPU 使用率 | kee_cpu_util | % | KeeWiDB 节点 CPU 使用率。 |
网络 | 连接数 | connections | 个 | 客户端通过 TCP 协议连接到数据库实例的数量。 |
| 连接使用率 | connections_util | % | 实际 TCP 连接数量和最大连接数的百分比。 |
请求 | 总请求 | kee_commands | 次/秒 | KeeWiDB 节点每秒所执行的请求次数。 |
| 读请求 | kee_cmd_read | 次/秒 | KeeWiDB 节点每秒读请求的执行次数。 |
| 写请求 | kee_cmd_write | 次/秒 | KeeWiDB 节点每秒写请求的执行次数。 |
| 其他请求 | kee_cmd_other | 次/秒 | KeeWiDB 节点每秒读写命令之外的命令执行次数。 |
响应 | 慢查询 | kee_cmd_slow | 次/秒/ | 每秒执行请求时延大于 slowlog-log-slower-than 配置的次数。slowlog-log-slower-than 为 KeeWiDB 慢查询的评定时间,超过此配置项,将会被当成慢操作记录在慢查询日志中,单位:微秒。 |
| 执行错误 | cmd_err | 次/秒/ | 每秒命令执行错误的次数。例如,命令不存在、参数错误等情况。 |
持久内存 | 缓存命中率 | kee_keyspace_hit_util | % | Key 命中 \\ (Key命中 + KeyMiss),该指标可以反应 Cache Miss 的情况。 |
| key 总个数 | kee_keys | 个 | 实例存储的总 Key 个数(一级 Key)。 |
| key 过期数 | kee_expire_keys | 个 | 时间窗内被淘汰的 Key 个数,对应 info 命令输出的 expired_keys。 |
存储 | 硬盘使用量 | kee_disk_used | MB | 硬盘使用量的统计。 |
| 硬盘使用率 | kee_disk_util | % | 硬盘使用量与硬盘总容量的占比。 |
| 硬盘 IOPS 使用量 | kee_disk_iops | 次/秒 | 硬盘每秒输入输出的请求次数。 |
| ||||
|
计费说明
腾讯云可观测平台服务配置告警策略以监控实例各项关键指标,可免费试用。
目前只针对告警短信、电话告警收费,具体信息,请参见 腾讯云可观测平台计费概述。
前提条件
开通腾讯云可观测平台(Cloud Monitor,CM)服务。
数据库实例状态为运行中。
已收集告警通知对象的信息,包括:邮件、短信、电话等。
操作步骤
1. 登录 KeeWiDB 控制台。
2. 在右侧实例列表页面上方,选择地域。
3. 在实例列表中,找到目标实例。
4. 在目标实例所在行,通过以下任一方式进入腾讯云可观测平台的新建告警策略页面。
单击监控/状态/任务列中的
,在实例监控数据面板的右上角,单击配置告警。
单击蓝色字体的实例 ID,进入实例详情页面,单击系统监控页签,再选择监控指标页签,单击设置告警。
5. 在新建告警策略 页面,请参见下表,配置告警策略。告警策略的基本概念,请参见 新建告警策略。
参数名称 | 参数解释 |
策略名称 | 给告警策略自定义名称,便于识别即可。 |
备注 | 简要描述告警策略,便于识别。 |
监控类型 | 请选择云产品监控。 |
策略类型 | 支持选择云数据库 / KeeWiDB / 实例汇总、云数据库 / KeeWiDB / Proxy节点、云数据库 / KeeWiDB / KeeWiDB节点,请根据监控对象选择。 |
策略所属项目 | 给告警策略指定项目,您可以在告警策略列表快速筛选该项目下的所有告警策略。 |
告警对象 | |
触发条件 | |
告警通知 |
6. 确认配置无误,单击完成。更多告警介绍,请参见 告警概述。