告警配置

最近更新时间:2025-05-20 11:19:02

我的收藏
腾讯云数据仓库 TCHouse-C 提供了丰富的监控指标,方便您掌握集群的运行状态,并可相应配置告警以实时关注运行信息,实现快速响应。本文档给出了 TCHouse-C 监控告警配置的详细指引,并梳理了推荐用户优先关注的指标。

操作指引

在集群详情页中,左侧选择 集群监控 可查看集群的各项性能指标。

监控可分为 集群指标、节点指标和 ZK指标三个模块,指标说明可参见官网文档。配置告警需使用腾讯云可观测平台,单击任一指标项上的 配置告警 图标可一键跳转至腾讯云可观测平台的告警配置页面。

腾讯云告警配置页面如下:


填写基本信息

按云可观测平台规则,TCHouse-C 集群聚合维度、ClickHouse 节点、ZooKeeper 节点(或 Keeper 节点)分属不同的告警策略,因此需要分别配置。


配置告警规则

监控类型:选择【云产品监控】
策略类型:选择【CDWCH/CK告警】、【CDWCH/ZK告警】、【CDWCH/集群聚合告警】、【Keeper告警】
标签:选填,可自行定义。
告警对象:根据地域、实例ID 选择具体配置告警的节点。

触发条件:选择手动配置,可根据需要自行定义规则,下图为配置示例,具体配置建议可参见本文档第二部分【推荐配置指标】

以上操作完成后,单击 下一步:配置告警通知 继续配置。
说明:
在配置告警时,用户可根据创建集群时所选的 ZooKeeper 或 ClickHouseKeeper 组件来配置,二者选其一即可。

配置告警通知

完成以上告警规则配置后,您需要指定异常发生时,告警通知接收人的范围。在腾讯云可观测平台中,您需要将期望告警覆盖的用户、接口回调等设为模板,再将模板与告警关联。

在云可观测平台中,一个告警策略可以绑定多个通知模板,一个通知模板也可供多个告警策略使用,可按需灵活配置。

单击完成,实现告警策略创建。

查看告警配置

告警配置完成后,您可在 腾讯云可观测平台-告警管理-告警配置 中查看已有的策略,便捷修改 触发条件/告警对象/通知模板 等参数,方便按需随时调整告警策略。若想了解云可观察平台的更多用法,可在 腾讯云可观测平台文档中进行查阅。

推荐配置指标

腾讯云数据仓库 TCHouse-C 提供了丰富的监控指标,本文档给出了一些建议优先配置告警、重点关注的指标。其中:
默认指标时间范围为 1小时
时间粒度一般建议设为 1min
持续数据点一般建议设为 5个
重复通知频率可根据您的实际需求配置

集群关键告警指标

分类
指标名
单位
建议告警规则
优先级
备注
集群负载
CPU使用率
%
持续>80%
结合节点指标进行进一步定位,建议垂直升配
集群负载
内存使用率
%
持续>80%
结合节点指标进行进一步定位,建议垂直升配
集群负载
数据盘使用率
%
>90%
结合节点指标进行进一步定位,建议扩容
集群负载
失败查询数
Num
根据实际业务判断
减少查询频率
集群负载
失败写入数
Num
根据实际业务判断
减少写入频率

节点关键告警指标

分类
指标名
单位
建议告警规则
优先级
备注
节点负载
CK节点存活
1,0
<1
1:节点运行正常 0:节点失活
节点负载
CPU峰值使用率
%
>90%
建议垂直升配或水平扩容
节点负载
CPU平均使用率
%
持续>80%
建议垂直升配或水平扩容
节点负载
内存使用率
%
持续>80%
建议垂直升配或水平扩容
节点负载
数据盘使用率
%
>90%
建议磁盘扩容或者清理历史数据
节点负载
节点硬盘IO使用率
%
持续>90%
可能导致查询超时或者写入延迟
节点负载
查询线程数
Num
连续5分钟>64
可能导致查询任务堆积
节点负载
Merge时间
Num
连续5分钟>10000ms
MergeTree表后台Merge任务的耗时
节点负载
mutation数量
Num
>10
未完成的 ALTER/UPDATE/DELETE 任务数
节点负载
readonlyReplica数量
Num
>1
处于只读状态的副本数,通常因ZooKeeper超时导致,需要降低写入频率
节点负载
zk请求数
Num
>1000
ClickHouse与ZooKeeper的交互次数,高负载可能导致集群响应缓慢
节点负载
失败查询数
Num
根据实际业务判断
减少查询频率
节点负载
失败写入数
Num
根据实际业务判断
减少写入频率

ZK 关键告警指标

分类
指标名
单位
建议告警规则
优先级
备注
ZK指标
ZK进程存活
1,0
<1
1:节点运行正常 0:节点失活
ZK指标
CPU使用率
%
持续>80%
建议垂直升配
ZK指标
内存使用率
%
持续>80%
建议垂直升配
ZK指标
正在运行的分布式ddl
Num
连续5分钟>10
未完成DDL任务数,可能阻塞后续DDL任务
ZK指标
预处理队列等待时间
Num
连续5分钟>1000ms
ZK处理请求前的队列等待时间,可能影响副本数据同步