异常诊断

最近更新时间:2024-09-19 09:57:41

我的收藏

功能描述

异常诊断功能为用户的数据库实例提供实时的性能监控、健康巡检、故障诊断,让用户既可以直观地感知数据库实例实时的运行状况,也可以定位实时出现的性能异常。

整体概览

登录 DBbrain 控制台,在左侧导航选择诊断优化,在上方选择对应数据库,然后选择异常诊断页。


查看监控概览

概览框可显示数据库的整体健康得分、异常诊断事件时间轴、拓扑图等信息。
在概览框上方可选择实时或者历史统计时间范围。
在诊断事件的时间轴上,可查看每次诊断事件发生的时间点。将鼠标悬浮在时间轴上,上下滚动鼠标滑轮,可放大/缩小时间轴范围。

健康得分显示实例当前的健康得分。

查看诊断信息

诊断事件显示等级分为健康、提示、告警、严重、致命。DBbrain 会定期(每10分钟)的对实例进行健康巡检。
1. 在诊断提示框中,显示事件的风险等级分布。
2. 在诊断详情列表中,单击对应事件即可进入事件详情页。



3. 在事件详情中查看事件的现场描述。
事件详情:包括诊断项、起止时间、风险等级、持续时长、概要等信息。
现场描述:异常事件(或健康巡检事件)的外在表现现象的快照和性能趋势。


3.1 忽略/取消忽略告警。
忽略告警功能,从单击忽略后,该实例由相同根因产生的诊断项告警也将被忽略。对于已被忽略的异常告警信息,将会被置灰色。
说明:
该功能仅针对诊断项为非“健康巡检”的异常告警。
取消忽略告警功能,从单击取消忽略后,该实例由相同根因产生的异常告警也将被取消忽略。默认不显示已忽略的诊断项。 在诊断提示中,鼠标悬浮在对应告警上,即可显示忽略操作,然后单击忽略。单击任意一条异常告警的忽略取消忽略,可忽略及取消忽略同类告警信息。

也可以进入事件详情页,在右上方单击忽略取消忽略

查看 SQL 和慢 SQL 信息

“实时/历史 SQL”展示实例的请求数汇总和分布,包括 aggregate 请求数、command 请求数、count 请求数、delete 请求个数、getmore 请求数、insert 请求数、read 请求数、update 请求数。
“实时/历史慢 SQL”展示慢 SQL 请求数和 CPU 使用率的趋势。


诊断项详细说明

诊断项为智能诊断的项目,其类别包括性能、可用性、可靠性、可维护性四类,每个诊断项仅属于一个类别。
诊断项名称
诊断项类别
说明
风险等级划分
节点连通性检查
可用性
数据库连接异常,无法连接数据库实例
致命
读等待队列高
性能
在进行读操作时,等待访问数据库的请求数量较多
提示:读等待队列 ≥ 64,且持续时间 ≥ 1分钟
告警:读等待队列 ≥ 64,且持续时间 ≥ 10分钟
严重:读等待队列 ≥ 64,且持续时间 ≥ 30分钟
致命:读等待队列 ≥ 64,且持续时间 ≥ 60分钟
写等待队列过高
性能
在进行写操作时,等待访问数据库的请求数量较多
提示:写等待队列 ≥ 64,且持续时间 ≥ 1分钟
告警:写等待队列 ≥ 64,且持续时间 ≥ 10分钟
严重:写等待队列 ≥ 64,且持续时间 ≥ 30分钟
致命:写等待队列 ≥ 64,且持续时间 ≥ 60分钟
连接过多
可用性
数据库连接数过多
提示:70%>连接数利用率 ≥ 60%
告警:80%>连接数利用率 ≥ 70%
严重:90%>连接数利用率 ≥ 80%
致命:连接数利用率 ≥ 90%
主从延迟
可维护性
主从节点数据同步延迟过大
提示:10分钟>主从延迟 ≥ 1分钟
告警:30分钟>主从延迟 ≥ 10分钟
严重:60分钟>主从延迟 ≥ 30分钟
致命:主从延迟 ≥ 60分钟
Oplog 保存时间
可维护性
Oplog 保存时间过长
提示:480分钟>Oplog保存时间 ≥ 120分钟
告警:120分钟>Oplog保存时间 ≥ 60分钟
严重:60分钟>Oplog保存时间 ≥ 30分钟
致命:Oplog保存时间<30分钟
缓存使用高
性能
数据库的内存缓存使用率较高
提示:WT 缓存使用率超过95%,且持续时间1分钟
告警:WT 缓存使用率超过95%,且持续时间5分钟
严重:WT 缓存使用率超过95%,且持续时间10分钟
致命:WT 缓存使用率超过95%,且持续时间30分钟
脏缓存过高
性能
内存中存在大量未写入磁盘的数据
提示:Cache Dirty 超过20%,且持续时间1分钟
告警:Cache Dirty 超过20%,且持续时间5分钟
严重:Cache Dirty 超过20%,且持续时间10分钟
致命:Cache Dirty 超过20%,且持续时间30分钟
入流量过高
性能
数据库接收到的请求或数据流量超过了其处理能力
提示:1000MB>节点入流量 ≥ 800MB
告警:1200MB>节点入流量 ≥ 1000MB
严重:1500MB>节点入流量 ≥ 1200MB
致命:节点入流量 ≥ 1500MB
节点出流量过高
性能
某个节点(如主节点或从节点)向外部发送的数据流量过大
提示:1000MB>节点出流量 ≥ 800MB
告警:1200MB>节点出流量 ≥ 1000MB
严重:1500MB>节点出流量 ≥ 1200MB
致命:节点出流量 ≥ 1500MB
磁盘利用率过高
可用性
数据库实例的磁盘使用率接近或达到其最大容量
提示:80%>磁盘利用率 ≥ 60%
告警:90%>磁盘利用率 ≥ 80%
严重:95%>磁盘利用率 ≥ 90%
致命:磁盘利用率 ≥ 95%
内存利用率过高
可用性
数据库实例的内存使用率接近或达到其最大容量
提示:80%>内存利用率 ≥ 70%
告警:90%>内存利用率 ≥ 80%
严重:95%>内存利用率 ≥ 90%
致命:内存利用率 ≥ 95%
CPU 利用率过高
可用性
数据库实例的 CPU 使用率接近或达到其最大容量
提示:80%>CPU 利用率 ≥ 60%
告警:90%>CPU 利用率 ≥ 80%
严重:95%>CPU 利用率 ≥ 90%
致命:CPU 利用率 ≥ 95%
节点内存超限
可用性
某个 MongoDB 实例或节点的内存使用量超过了其配置的限制
致命
慢查询
性能
执行时间较长的查询,这些查询可能会影响数据库的性能和响应时间
提示:发生慢 SQL,且 CPU 利用率 ≤ 40%
告警:发生慢 SQL,且40%<CPU 利用率 ≤ 60%
严重:发生慢 SQL,且60%<CPU 利用率 ≤80%
致命:发生慢 SQL,且 CPU 利用率 > 80%
实时活跃会话过高
可用性
同时连接到数据库的会话数量超过了系统的承载能力
提示:100000>活跃会话 ≥ 2000
告警:400000>活跃会话 ≥ 100000
严重:900000>活跃会话 ≥ 400000
致命:活跃会话 ≥ 900000
节点 pageheap 内存过高
可用性
使用的内存量超过了预期
通知