基础监控
功能介绍
TCHouse-C 提供了46项丰富的业务及性能监控指标,方便您查看和掌握集群的运行状态,配置指标实时获取集群的运行告警信息,以便快速响应。
集群监控
说明
可针对具体指标做告警阈值配置及监控数据导出等。监控视图的展示逻辑-指标采集间隔为10秒,视图最小展示粒度为1min,数据点的聚合逻辑为1min内数据采集点的最大值。
集群告警配置
1. 进入集群监控页面,选中需要的指标项对其做监控告警的阈值配置。具体如下:
2. 在新开的腾讯云可观测平台控制台窗口中,筛选需要配置的实例对象(TCHouse-C 的集群名称),根据配置模板对已选中的指标做监控阈值配置。配置告警规则,配置项如下:
设置选项 | 说明 |
策略名称 | 配置相关告警的策略名称 |
监控类型 | 默认云产品监控 |
策略类型 | 默认 CDWCH/CK 告警 |
告警对象 | 默认实例 ID |
| 下拉选中 TCHouse-C 的集群 |
触发条件 | 默认手动配置 |
| 指标告警中配置指标的相关阈值及告警策略 |
通知模板 | 选择已有模板或新建通知模板 |
说明:
默认项请勿操作修改。
3. 配置结束单击完成即提交告警策略,具体腾讯云可观测平台的告警策略可参考 腾讯云可观测平台-新建告警策略。
监控指标项
节点指标
指标名 | 释义 | 备注 |
CPU 使用率 | CPU 的使用情况 | 平均值 |
文件打开数 | 单位时间内的文件打开数 | 平均值 |
内存使用率 | 内存的使用情况 | 平均值 |
节点一分钟负载 | 节点一分钟负载 | 平均值 |
节点五分钟负载 | 节点五分钟负载 | 平均值 |
节点十五分钟负载 | 节点十五分钟负载 | 平均值 |
数据盘使用率 | 数据盘的使用情况 | 平均值 |
节点接收流量 | 单位时间内的节点的接收数据量 | 平均值 |
节点流出流量 | 单位时间内的节点的流出数据量 | 平均值 |
业务指标
指标名 | 释义 | 备注 |
存活 | 检测节点 CH 进程的存活情况 | 瞬时值 |
上下文的锁等待 | 上下文锁等待的个数 | ClickHouseMetrics_ContextLockWait,瞬时值 |
HTTP 连接数 | HTTP 协议链接个数 | ClickHouseMetrics_HTTPConnection,瞬时值 |
TCP 连接数 | TCP 协议链接个数 | ClickHouseMetrics_TCPConnection,瞬时值 |
单位时间 insert 执行次数 | 单位时间内的 insert 个数 | ClickHouseProfileEvents_InsertQuery,均值 |
Merge 消耗的时间(速率) | 单位时间内的 merge 消耗时间 | ClickHouseProfileEvents_MergesTimeMilliseconds,均值 |
Mysql 方式的连接数 | 通过 jdbc 方式的链接个数 | ClickHouseMetrics_MySQLConnection,瞬时值 |
包含增删改查的 query 个数 | 单位时间内包含增删改查的 query 个数 | ClickHouseProfileEvents_Query,均值 |
查询线程数 | 当前时间的查询线程数 | ClickHouseMetrics_QueryThread,瞬时值 |
单位时间内的副本块合并个数 | 单位时间内的副本块合并个数 | ClickHouseProfileEvents_ReplicatedPartMerges,均值 |
单位时间内的副本块修改个数 | 单位时间内的副本块修改个数 | ClickHouseProfileEvents_ReplicatedPartMutations,均值 |
插入失败数 | 单位时间内的插入失败数 | ClickHouseProfileEvents_FailedInsertQuery,均值 |
查询失败数 | 单位时间内的查询失败数 | ClickHouseProfileEvents_FailedSelectQuery,均值 |
合并数 | 当前产生合并的个数 | ClickHouseMetrics_Merge,瞬时值 |
CK 侧 ZK 指标
指标名 | 释义 | 备注 |
ZK 请求数 | 当前时间节点请求 ZK 的请求数 | ClickHouseMetrics_ZooKeeperRequest,瞬时值 |
当前 ZK session 个数 | 当前时间节点链接 ZK 的 session 个数 | ClickHouseMetrics_ZooKeeperSession,瞬时值 |
ZK watch 个数 | 当前时间节点链接 ZK watch 个数 | ClickHouseMetrics_ZooKeeperWatch,瞬时值 |
ZK 指标
指标名 | 释义 | 备注 |
发包个数 | 单位时间 ZK 节点发送的 packet 个数 | packets_sent,均值 |
收包个数 | 单位时间 ZK 节点接收的 packet 个数 | packets_received,均值 |
ZK 进程存活 | ZK 的进程监控,1标识存活,0代表失活 | 瞬时值 |
全局 session 个数 | 当前时间全局的 session 个数 | global_sessions,瞬时值 |
拒绝链接个数 | 单位时间内 ZK 拒绝链接的个数 | connection_rejected,均值 |
请求提交队列个数 | 当前时间请求提交队列个数 | request_commit_queued,均值 |
预处理队列等待时间 | 单位时间内预处理队列等待时间 | prep_processor_queue_time_ms,均值 |
预处理时间 | 单位时间内预处理时间 | prep_process_time,均值 |
ZK_watch 个数 | 当前时间 ZK_watch 个数 | watch_count,瞬时值 |
JVM 内存池使用 | JVM 内存池使用大小情况 | jvm_memory_pool_bytes_used,瞬时值 |
注意:
ZK 的监控指标在21.3.9.84及以上版本高可用集群支持。