实践背景
专家建议的核心告警指标通常包括但不限于:CPU 使用率、内存使用率、磁盘使用率等。通过这些指标,可以全面了解系统的运行状况,并采取适当的措施以确保系统的稳定和高效运行。
专家建议核心告警指标
告警指标 | 统计粒度 | 判断条件 | 阈值 | 单位 | 持续周期 | 告警方式 |
磁盘空间使用率(节点) | 统计粒度1分钟 | > | 80% | % | 持续3个数据点 | 每三十分钟告警一次 |
CPU 使用率(节点) | 统计粒度1分钟 | > | 90% | % | 持续3个数据点 | 每三十分钟告警一次 |
内存使用率(节点) | 统计粒度1分钟 | > | 85% | % | 持续3个数据点 | 每三十分钟告警一次 |
请求失败量 QPS(节点) | 统计粒度1分钟 | > | 5 | count/s | 持续1个数据点 | 每三十分钟告警一次 |
配置告警策略
