腾讯云数据仓库 TCHouse-C 提供了丰富的监控指标,方便您掌握集群的运行状态,并可相应配置告警以实时关注运行信息,实现快速响应。本文档给出了 TCHouse-C 监控告警配置的详细指引,并梳理了推荐用户优先关注的指标。
操作指引
在集群详情页中,左侧选择 集群监控 可查看集群的各项性能指标。


腾讯云告警配置页面如下:

填写基本信息
按云可观测平台规则,TCHouse-C 集群聚合维度、ClickHouse 节点、ZooKeeper 节点(或 Keeper 节点)分属不同的告警策略,因此需要分别配置。

配置告警规则
监控类型:选择【云产品监控】
策略类型:选择【CDWCH/CK告警】、【CDWCH/ZK告警】、【CDWCH/集群聚合告警】、【Keeper告警】
标签:选填,可自行定义。
告警对象:根据地域、实例ID 选择具体配置告警的节点。

触发条件:选择手动配置,可根据需要自行定义规则,下图为配置示例,具体配置建议可参见本文档第二部分【推荐配置指标】

以上操作完成后,单击 下一步:配置告警通知 继续配置。
说明:
在配置告警时,用户可根据创建集群时所选的 ZooKeeper 或 ClickHouseKeeper 组件来配置,二者选其一即可。
配置告警通知
完成以上告警规则配置后,您需要指定异常发生时,告警通知接收人的范围。在腾讯云可观测平台中,您需要将期望告警覆盖的用户、接口回调等设为模板,再将模板与告警关联。

在云可观测平台中,一个告警策略可以绑定多个通知模板,一个通知模板也可供多个告警策略使用,可按需灵活配置。

单击完成,实现告警策略创建。
查看告警配置
告警配置完成后,您可在 腾讯云可观测平台-告警管理-告警配置 中查看已有的策略,便捷修改 触发条件/告警对象/通知模板 等参数,方便按需随时调整告警策略。若想了解云可观察平台的更多用法,可在 腾讯云可观测平台文档中进行查阅。
推荐配置指标
腾讯云数据仓库 TCHouse-C 提供了丰富的监控指标,本文档给出了一些建议优先配置告警、重点关注的指标。其中:
默认指标时间范围为 1小时
时间粒度一般建议设为 1min
持续数据点一般建议设为 5个
重复通知频率可根据您的实际需求配置
集群关键告警指标
分类 | 指标名 | 单位 | 建议告警规则 | 优先级 | 备注 |
集群负载 | CPU使用率 | % | 持续>80% | 高 | 结合节点指标进行进一步定位,建议垂直升配 |
集群负载 | 内存使用率 | % | 持续>80% | 高 | 结合节点指标进行进一步定位,建议垂直升配 |
集群负载 | 数据盘使用率 | % | >90% | 高 | 结合节点指标进行进一步定位,建议扩容 |
集群负载 | 失败查询数 | Num | 根据实际业务判断 | 中 | 减少查询频率 |
集群负载 | 失败写入数 | Num | 根据实际业务判断 | 中 | 减少写入频率 |
节点关键告警指标
分类 | 指标名 | 单位 | 建议告警规则 | 优先级 | 备注 |
节点负载 | CK节点存活 | 1,0 | <1 | 高 | 1:节点运行正常 0:节点失活 |
节点负载 | CPU峰值使用率 | % | >90% | 高 | 建议垂直升配或水平扩容 |
节点负载 | CPU平均使用率 | % | 持续>80% | 高 | 建议垂直升配或水平扩容 |
节点负载 | 内存使用率 | % | 持续>80% | 高 | 建议垂直升配或水平扩容 |
节点负载 | 数据盘使用率 | % | >90% | 高 | 建议磁盘扩容或者清理历史数据 |
节点负载 | 节点硬盘IO使用率 | % | 持续>90% | 中 | 可能导致查询超时或者写入延迟 |
节点负载 | 查询线程数 | Num | 连续5分钟>64 | 中 | 可能导致查询任务堆积 |
节点负载 | Merge时间 | Num | 连续5分钟>10000ms | 中 | MergeTree表后台Merge任务的耗时 |
节点负载 | mutation数量 | Num | >10 | 中 | 未完成的 ALTER/UPDATE/DELETE 任务数 |
节点负载 | readonlyReplica数量 | Num | >1 | 中 | 处于只读状态的副本数,通常因ZooKeeper超时导致,需要降低写入频率 |
节点负载 | zk请求数 | Num | >1000 | 中 | ClickHouse与ZooKeeper的交互次数,高负载可能导致集群响应缓慢 |
节点负载 | 失败查询数 | Num | 根据实际业务判断 | 中 | 减少查询频率 |
节点负载 | 失败写入数 | Num | 根据实际业务判断 | 中 | 减少写入频率 |
ZK 关键告警指标
分类 | 指标名 | 单位 | 建议告警规则 | 优先级 | 备注 |
ZK指标 | ZK进程存活 | 1,0 | <1 | 高 | 1:节点运行正常 0:节点失活 |
ZK指标 | CPU使用率 | % | 持续>80% | 高 | 建议垂直升配 |
ZK指标 | 内存使用率 | % | 持续>80% | 高 | 建议垂直升配 |
ZK指标 | 正在运行的分布式ddl | Num | 连续5分钟>10 | 中 | 未完成DDL任务数,可能阻塞后续DDL任务 |
ZK指标 | 预处理队列等待时间 | Num | 连续5分钟>1000ms | 中 | ZK处理请求前的队列等待时间,可能影响副本数据同步 |