功能介绍
事件中心是腾讯云数据仓库 TCHouse-C 为用户提供的事件巡检和告警平台,支持对集群的各类运维事件/隐患/故障进行实时巡检和主动预警,同时深度集成了底层云服务器的维修任务流程与用户运维授权机制,旨在帮助用户及时感知集群隐患与底层故障,最大限度保障集群的稳定性与可用性。
核心价值
异常早预警:实时监测集群隐患状态,通过事件分级和提前预警,降低业务中断概率。
配置高灵活:支持自定义事件规则和消息订阅方式,适配不同场景下的监控与预警需求。
运维高效率:联动自助运维能力,部分异常可通过配置自动处理流程,大幅减少人工干预成本。
事件分类与定义
登录 腾讯云数据仓库 TCHouse-C 控制台,在 集群列表 中选择对应的集群,在集群详情页面单击 集群事件 > 事件中心 页面。事件中心 默认展示当前待处理的全部集群事件,支持按事件完成状态、事件发生时间以及事件类型进行筛选。
系统根据事件的来源和影响程度,将事件分为 默认事件 一类,主要涉及集群所在云服务器的底层故障以及集群的安全性隐患,用户不可关闭推送。
说明:
1. 集群事件功能默认开启,无需手动启用,历史事件保留时长为 180 天,超出后将自动清理。
2. 触发时间取事件首次推送时间,完成时间取事件最终处理时间,均需支持排序(默认按触发时间倒序)。
3. 非硬盘类维修任务如超过48小时用户仍未授权,则系统将在计划维护时间默认发起维护,并将维修任务转为“处理中”状态。
4. 更多默认事件和自定义事件正在接入中,当前支持的事件项以控制台显示为准。
默认事件
默认事件类型如下:
节点运行隐患:节点当前运行正常,但节点所在的宿主机或底层平台存在软硬件隐患,可能导致性能抖动,或存在异常宕机风险。
节点运行异常:节点所在的底层服务器突发故障,可能导致网络、资源、进程等异常,致业务卡顿或中断风险。
节点运行故障:节点所在的底层服务器突发故障,可能导致网络、资源、进程等异常,致业务卡顿或中断风险。
节点维护升级:节点所在的底层服务器因架构、软件升级等原因需要发起在线维护,以提升性能及安全性。
节点硬盘异常:节点本地硬盘突发故障,可能导致实例 I/O 性能降低或硬盘功能受损。
实例硬盘预警:节点本地硬盘存在坏盘隐患或使用寿命即将耗尽,可能导致实例 I/O 异常或磁盘掉线等数据层面异常。
default 账户空密码:集群 default 账户采用弱密码或空密码,可能存在安全隐患。
维修状态
当用户遭遇云服务器的底层故障时,针对硬件故障点击“授权维修”后,会有如下状态:
事件状态 | 含义 |
待授权 | 等待用户授权,用户可选择授权维护方式(在线维修/停机维护/弃盘迁移等)和维护时间。 |
已预约 | 用户已操作授权,并预约维护时间。在任务创建的48小时之内,可修改系统默认的计划维护时间。 |
处理中 | 维修任务正在执行中,系统自动进行数据迁移或硬件修复。 |
已结束 | 维修任务已处理完成,节点恢复健康。 |
已避免 | 当实例存在未结束的维修任务时,用户对实例进行退还、销毁、调整配置等操作时,将中断本次维修任务流程。 |
已取消 | 本次维修任务已被系统取消。 |
维修策略
针对本地盘机型的事件主要包括以下几类:
警告:
1. 对于不同事件,对应的维修策略主要区别在于是否需要换盘,只要换盘都会丢失故障节点的用户数据,请谨慎操作。
2. 针对非硬盘类维修,若用户在 48 小时 内未响应,系统将按默认计划时间强制发起维护。
无需换盘:可选的维修策略为 在线维修(推荐)和 停机维护。
在线维修:不需要停机、维修过程中读写可能会受影响。
停机维护:短暂不可用,维修完成后不影响数据盘,因此等待维修完成即可。
需要换盘:可选的维修策略为 停机换盘 和 弃盘迁移。
弃盘迁移:是指该可用区有同等资源时,通过加入新节点替换故障节点的方式实现快速的故障恢复、故障节点的本地盘数据无法保留。
停机换盘:是指在该可用区没有同等资源时,通过本地拔盘修复后重新插入磁盘。只要涉及换盘都会丢失故障节点的用户数据,需依赖 ClickHouse 副本机制进行重构,请谨慎操作。
消息订阅
消息订阅功能通过多种渠道(如短信、站内信、邮件)向用户推送事件通知,确保及时触达。事件中心提供标准化消息模板,支持根据事件类型动态生成内容。
消息订阅操作步骤如下:
1. 前往消息中心启用腾讯云数据仓库 TCHouse-C 的消息订阅服务。
2. 至少勾选短信、微信等通知渠道中的一项。
3. 确保已添加的消息接收人,其手机号、微信账号均完成验证。
最佳实践
高可用架构: 鉴于本地盘维修可能涉及换盘,强烈建议业务采用 双副本 部署,利用 ClickHouse 的自愈能力在换盘后自动同步数据。
及时响应: 对于“严重”级别的硬盘预警,建议在 24 小时内完成手动授权,避免因系统自动强制维护导致非预期的业务中断。
利用异常告警看板: 运维人员应定期关注集群维度的“异常告警”浮窗,点击即可直达事件中心处理待办事项。