由客户云上购买和使用的资源实例与产品产生的监控事件
事件中文名 | 事件英文名 | 事件类型 | 从属维度 | 有无恢复概念 | 事件描述 | 处理方法和建议 |
DataNode 发生 full GC | DataNodeFullGC | 异常事件 | 实例维度 | 否 | DataNode 发生 full GC | DataNode 参数调优 |
CPU IOwait 平均值高于阈值 | CpuIOWaitAvgMoreThanThreshold | 异常事件 | 实例维度 | 是 | CPU IOwait 平均值高于阈值 | 人工排查 |
CPU1分钟负载连续高于阈值 | CpuLoad1mMoreThanThreshold | 异常事件 | 实例维度 | 是 | CPU1分钟负载连续高于阈值 | 节点扩容或升配 |
CPU5分钟负载连续高于阈值 | CpuLoad5mMoreThanThreshold | 异常事件 | 实例维度 | 是 | CPU5分钟负载连续高于阈值 | 节点扩容或升配 |
内存使用率持续高于阈值 | MemoryFreeException | 异常事件 | 实例维度 | 是 | 内存使用率持续高于阈值 | 节点扩容或升配 |
系统进程总数连续高于阈值 | ProcessCntMoreThanThreshold | 异常事件 | 实例维度 | 是 | 系统进程总数连续高于阈值 | 人工排查 |
节点文件句柄使用率持续超过阈值 | FDAllocatedException | 异常事件 | 实例维度 | 是 | 节点文件句柄使用率持续超过阈值 | 人工排查 |
节点 TCP 连接数持续超过阈值 | TCPConnectionsEstablishedException | 异常事件 | 实例维度 | 是 | 节点 TCP 连接数持续超过阈值 | 检查是否存在连接泄露 |
元数据库 Ping 失败 | MetaDBPingFail | 异常事件 | 实例维度 | 否 | 元数据库 Ping 失败 | 人工排查 |
NameNode 发生主备切换 | HDFSNameNodeSwitch | 异常事件 | 实例维度 | 否 | NameNode 发生主备切换 | 人工排查 |
NameNode RPC 请求处理延迟持续高于阈值 | HDFSNameNodeRpcDelayMoreThanThreshold | 异常事件 | 实例维度 | 是 | NameNode RPC 请求处理延迟持续高于阈值 | 人工排查 |
NameNode 发生 full GC | NameNodeFullGC | 异常事件 | 实例维度 | 否 | NameNode 发生 full GC | NameNode 参数调优 |
NameNode JVM 内存使用率持续高于阈值 | NameNodeJvmMemoryUsageMoreThanThreshold | 异常事件 | 实例维度 | 是 | NameNode JVM 内存使用率持续高于阈值 | 调整 NameNode 堆内存大小 |
DataNode RPC 请求处理延迟持续高于阈值 | HDFSDataNodeRpcDelayMoreThanThreshold | 异常事件 | 实例维度 | 是 | DataNode RPC 请求处理延迟持续高于阈值 | 人工排查 |
DataNode 当前连接数持续高于阈值 | DataNodeConnectionsMoreThanThreshold | 异常事件 | 实例维度 | 是 | DataNode 当前连接数持续高于阈值 | 人工排查 |
DataNode JVM 内存使用率持续高于阈值 | DataNodeJvmMemoryUsageMoreThanThreshold | 异常事件 | 实例维度 | 是 | DataNode JVM 内存使用率持续高于阈值 | 调整 DataNode 堆内存大小 |
ResourceManager 发生主备切换 | YarnRMSwitch | 异常事件 | 实例维度 | 否 | ResourceManager 发生主备切换 | 检查 RM 进程状态,查看 standby RM 日志查看主备切换原因 |
ResourceManager 发生 full GC | YarnRmFullGCMoreThanThreshold | 异常事件 | 实例维度 | 否 | ResourceManager 发生 full GC | ResourceManager 参数调优 |
ResourceManager JVM 内存使用率持续高于阈值 | YarnRmJvmMemoryUsageMoreThanThreshold | 异常事件 | 实例维度 | 是 | ResourceManager JVM内存使用率持续高于阈值 | 调整 ResourceManager 堆内存大小 |
NodeManager 发生 full GC | YarnNmFullGCMoreThanThreshold | 异常事件 | 实例维度 | 否 | NodeManager 发生 full GC | NodeManager 参数调优 |
NodeManager 可用的内存持续低于阈值 | YarnNmAvailableMemoryLessThanThreshold | 异常事件 | 实例维度 | 是 | NodeManager 可用的内存持续低于阈值 | 调整 NodeManager 堆内存大小 |
NodeManager JVM 内存使用率持续高于阈值 | YarnNmJvmMemoryUsageMoreThanThreshold | 异常事件 | 实例维度 | 是 | NodeManager JVM 内存使用率持续高于阈值 | 调整 NodeManager 堆内存大小 |
集群每个 RS 平均 REGION 数持续高于阈值 | HbaseRegionAvgNumMoreThanThreshold | 异常事件 | 实例维度 | 是 | 集群每个 RS 平均 REGION 数持续高于阈值 | 节点扩容或升配 |
HMaster 发生 full GC | HbaseHmFullGCMoreThanThreshold | 异常事件 | 实例维度 | 否 | HMaster 发生 full GC | HMaster 参数调优 |
HMaster JVM 内存使用率持续高于阈值 | HbaseHmJvmMemoryUsageMoreThanThreshold | 异常事件 | 实例维度 | 是 | HMaster JVM 内存使用率持续高于阈值 | 调整 HMaster 堆内存大小 |
HMaster 当前连接数持续高于阈值 | HbaseHmRpcConnectionNumMoreThanThreshold | 异常事件 | 实例维度 | 是 | HMaster 当前连接数持续高于阈值 | 人工排查 |
RegionServer 发生 full GC | HbaseRsFullGCMoreThanThreshold | 异常事件 | 实例维度 | 否 | RegionServer 发生 full GC | RegionServer 参数调优 |
RegionServer JVM 内存使用率持续高于阈值 | HbaseRsJvmMemoryUsageMoreThanThreshold | 异常事件 | 实例维度 | 是 | RegionServer JVM 内存使用率持续高于阈值 | 调整 RegionServer 堆内存大小 |
RegionServer 当前 RPC 连接数持续高于阈值 | HbaseRsRpcConnectionNumMoreThanThreshold | 异常事件 | 实例维度 | 是 | RegionServer 当前 RPC 连接数持续高于阈值 | 人工排查 |
RegionServer Storefile 个数持续高于阈值 | HbaseRsStorefileNumMoreThanThreshold | 异常事件 | 实例维度 | 是 | RegionServer Storefile 个数持续高于阈值 | 建议执行 major compaction |
HiveMetaStore 发生 full GC | HiveMetaStoreFullGC | 异常事件 | 实例维度 | 否 | HiveMetaStore 发生 full GC | HiveMetaStore 参数调优 |
HiveWebHcat 发生 full GC | HiveWebHcatFullGC | 异常事件 | 实例维度 | 否 | HiveWebHcat 发生 full GC | HiveWebcat 参数调优 |
Zookeeper 连接数持续高于阈值 | ZKConnectionsMoreThanThreshold | 异常事件 | 实例维度 | 是 | Zookeeper 连接数持续高于阈值 | 人工排查 |
ZNode 节点数量持续高于阈值 | ZKZNodesMoreThanThreshold | 异常事件 | 实例维度 | 是 | ZNode 节点数量持续高于阈值 | 人工排查 |
HDFS 文件总数持续高于阈值 | HDFSFilesTotalNumMoreThanThreshold | 异常事件 | 实例维度 | 是 | HDFS 文件总数持续高于阈值 | 调大 namenode 内存 |
HDFS 总 block 数量持续高于阈值 | HDFSBlocksTotalNumMoreThanThreshold | 异常事件 | 实例维度 | 是 | HDFS 总 block 数量持续高于阈值 | 调大 namenode 内存或调大 block size |
Dead 状态的数据节点数量持续高于阈值 | HDFSDeadNodeNumMoreThanThreshold | 异常事件 | 实例维度 | 是 | HDFS 标记为 Dead 状态的数据节点数量持续高于阈值 | 人工排查 |
HDFS 存储空间使用率持续高于阈值 | HDFSCapacityUsedRateMoreThanThreshold | 异常事件 | 实例维度 | 是 | HDFS 存储空间使用率持续高于阈值 | 清理 HDFS 中的文件或对集群扩容 |
集群内存使用率持续高于阈值 | YarnMemoryUsageMoreThanThreshold | 异常事件 | 实例维度 | 是 | 集群内存使用率持续高于阈值 | 集群扩容 |
集群 CPU 使用率持续高于阈值 | YarnCpuUsageMoreThanThreshold | 异常事件 | 实例维度 | 是 | 集群 CPU 使用率持续高于阈值 | 集群扩容 |
各队列中可用的 CPU 核数持续低于阈值 | YarnQueueAvailableVCoresLessThanThreshold | 异常事件 | 实例维度 | 是 | 各队列中可用的 CPU 核数持续低于阈值 | 给队列分配更多资源 |
各队列中可用的内存持续低于阈值 | YarnQueueAvailableMemoryLessThanThreshold | 异常事件 | 实例维度 | 是 | 各队列中可用的内存持续低于阈值 | 给队列分配更多资源 |
弹性扩缩容失败 | AutoScaleFailure | 异常事件 | 实例维度 | 否 | 弹性扩缩容失败 | 人工排查 |
单盘空间使用率持续高于阈值 | SingleDiskSpaceMoreThanThreshold | 异常事件 | 实例维度 | 是 | 单盘空间使用率持续高于阈值 | 节点扩容或升配 |
单盘 INODES 使用率持续高于阈值 | SingleDiskInMoreThanThreshold | 异常事件 | 实例维度 | 是 | 单盘 INODES 使用率持续高于阈值 | 节点扩容或升配 |
单盘 IO 设备利用率持续高于阈值 | SingleDiskUtilMoreThanThreshold | 异常事件 | 实例维度 | 是 | 单盘 IO 设备利用率持续高于阈值 | 节点扩容或升配 |
HBASE 两个 HMaster 服务状态均为 Standby | HmStandbyStatusMoreThanThreshold | 异常事件 | 实例维度 | 否 | HBASE 两个 HMaster 服务状态均为 Standby | 人工排查 |
节点内存使用配置超过阈值 | NodeMemoryUsage exceedsTheLimit | 异常事件 | 实例维度 | 否 | 节点上所有角色内存使用配置叠加超过节点物理内存阈值 | 调整节点进程堆内存分配 90% 严重 |
子机 UTC 时间和 NTP 时间差值高于阈值 | Thedifferencebetween theUTCtimeandNTPtimeoftheserverexceedsthe threshold | 异常事件 | 实例维度 | 否 | 子机 UTC 时间和 NTP 时间差值高于阈值(单位毫秒) | 确保 NTP daemon 处于运行状态 确保与 NTP server 的网络通信正常 |
故障节点自动补偿 | Autoreplacementoffailednodes | 异常事件 | 实例维度 | 否 | 当开启自动补偿功能后,task 节点和 router 节点异常时,系统将自动购买同机型规格配置进行补偿替换 | 补偿替换成功,无须关注 补偿替换失败,请前往 控制台 手动销毁,重新购买节点进行替换 |
节点故障 | Nodefailure | 异常事件 | 实例维度 | 否 | 集群中有故障节点 | |
NameNode 连接数持续高于阈值 | ThenumberofNameNodeconnectionsconsistentlygoesoverthelimit | 异常事件 | 实例维度 | 是 | NameNode 当前连接数 >= m,持续时间 t 秒(300<=t<=2592000) | 人工排查 |
两个 NameNode 服务状态均为 Standby | BoththeNamenodeservicesareinStandbystatus | 异常事件 | 实例维度 | 否 | 两个 NameNode 角色同时处于 Standby 状态 | 人工排查 |
HDFS MissingBlocks 数量持续高于阈值 | ThenumberofHDFSMissingBlocksgoesoverthe limitconsistently | 异常事件 | 实例维度 | 是 | 集群 MissingBlocks 数量>=m,持续时间 t 秒(300<=t<=604800) | 建议排查 HDFS 出现数据块损坏。使用命令 hadoop fsck / 检查 HDFS 文件分布的情况 |
HDFS NameNode 进入安全模式 | HDFSNameNode enteredthesecurity mode | 异常事件 | 实例维度 | 否 | NameNode 进入安全模式(持续300s) | 建议排查 HDFS 出现数据块损坏。使用命令 hadoop fsck / 检查 HDFS 文件分布的情况 |
丢失的 NodeManager 数持续高于阈值 | ThenumberoflostNodeManagers consistently goesoverthelimit | 异常事件 | 实例维度 | 是 | 集群当前丢失的 NodeManager 的个数 >= m,持续时间 t 秒(300<=t<=2592000) | 检查 NM 进程状态,检查网络是否畅通 |
PendingContainer 个数持续高于阈值 | ThenumberofPendingContainersconsistently goesoverthelimit | 异常事件 | 实例维度 | 是 | pengding Containers 个数 >= m个,持续时间 t 秒(300<=t<=2592000) | 合理指定 YARN 任务可用资源 |
RitRegion 个数持续高于阈值 | ThenumberofRitRegion consistentlygoesoverthelimit | 异常事件 | 实例维度 | 是 | 集群处于 RIT Region 个数 >= m,持续时间 t 秒(300<=t<=2592000) | HBase2.0 版本以下,hbase hbck -fixAssigment |
deadRS 数量持续高于阈值 | ThenumberofdeadRS consistentlygoesoverthelimit | 异常事件 | 实例维度 | 是 | dead RegionServer 数量 >= m,持续时间 t 秒(300<=t<=2592000) | 人工排查 |
HiveServer 发生 fullGC | AfullGCistriggeredatHiveServer | 异常事件 | 实例维度 | 否 | HiveServer 发生 fullGC | 参数调优 |
HiveServer_JVM 内存使用率持续高于阈值 | HiveServer_JVMmemoryusageconsistentlygoesoverthelimit | 异常事件 | 实例维度 | 是 | HiveServer2 JVM 内存使用率 >= m,持续时间 t 秒(300<=t<=2592000) | 调整 HiveServer2 堆内存大小 |
ImpalaCatalog JVM 内存使用率持续高于阈值 | ImpalaCatalogJVMMEMusageconsistentlygoesoverthelimit | 异常事件 | 实例维度 | 是 | ImpalaCatalog JVM 内存使用率>=m,持续时间 t 秒(300<=t<=604800) | 调整 ImpalaCatalog 堆内存大小 |
ImpalaDaemon JVM 内存使用率持续高于阈值 | limit.ImpalaDaemonJVMMEMusageconsistentlygoesoverthelimit | 异常事件 | 实例维度 | 是 | ImpalaDaemon JVM 内存使用率>=m,持续时间 t 秒(300<=t<=604800) | 调整 ImpalaDaemon 堆内存大小 |
ImpalaDaemon JVM 内存使用率持续高于阈值 | limit.ImpalaDaemon JVM MEM usage consistently goes over the limit | 异常事件 | 实例维度 | 是 | ImpalaDaemon JVM 内存使用率>=m,持续时间 t 秒(300<=t<=604800) | 调整 ImpalaDaemon 堆内存大小 |
Impala Beeswax API 客户端连接数高于阈值 | Number of Impala Beeswax API client connections exceeds the limit | 异常事件 | 实例维度 | 是 | Impala Beeswax API 客户端连接数 >=m | 控制台调整 impalad.flgs ,配置 fs_sevice_threads 数量 |
Impala HS2客户端连接数高于阈值 | Number of Impala HS2 client connections exceeds the limit | 异常事件 | 实例维度 | 是 | Impala HS2客户端连接数 >=m | 控制台调整 impalad.flgs ,配置 fs_sevice_threads 数量 |
Query 运行时长超过阈值 | Query run time period exceeds the limit | 异常事件 | 实例维度 | 否 | Query 运行时长超过阈值>=m(seconds) | 人工排查 |
执行 Query 失败总数高于阈值 | Number of failed queries exceeds the limit | 异常事件 | 实例维度 | 否 | 执行 Query 失败率高于阈值>=m,统计时间粒度 t 秒(300<=t<=604800) | 人工排查 |
提交 Query 总数高于阈值 | Number of submitted queries exceeds the limit | 异常事件 | 实例维度 | 否 | 执行 Query 失败总数高于阈值>=m,统计时间粒度 t 秒(300<=t<=604800) | 人工排查 |
执行 Query 失败率高于阈值 | Query failure rate exceeds the limit | 异常事件 | 实例维度 | 否 | 提交 Query 总数高于阈值 >=m,统计时间粒度 t 秒(300<=t<=604800) | 人工排查 |
PrestoSQL 每分钟失败查询数量超过阈值 | Number of failed queries per minute of PrestoSQL goes over the limit | 异常事件 | 实例维度 | 否 | PrestoSQL 失败查询数量 >=m | 人工排查 |
Presto 当前失败节点数量持续高于阈值 | Number of failed nodes of Presto consistently goes over the limit | 异常事件 | 实例维度 | 是 | Presto 当前失败节点数量>=m,持续时间 t 秒(300<=t<=604800) | 人工排查 |
Presto 当前资源组排队资源持续高于阈值 | Number of queued resources in the Presto resource group consistently goes over the limit | 异常事件 | 实例维度 | 是 | Presto 资源组排队任务>=m,持续时间 t 秒(300<=t<=604800) | 参数调优 |
Presto 每分钟失败查询数量超过阈值 | Number of failed queries per minute of Presto goes over the limit | 异常事件 | 实例维度 | 否 | Presto 失败查询数量 >=m | 人工排查 |
Presto Coordinator 发生full GC | Full GC happened in Presto Coordinator | 异常事件 | 实例维度 | 否 | PrestoCoordinator 发生full GC | 参数调优 |
Presto Coordinator JVM 内存使用率持续高于阈值 | Presto Coordinator JVM MEM usage consistently goes over the limit | 异常事件 | 实例维度 | 是 | PrestoCoordinator JVM 内存使用率>=m,持续时间 t 秒(300<=t<=604800) | 调整 PrestoCoordinator 堆内存大小 |
Presto Worker 发生 full GC | Full GC happened in Presto Worker | 异常事件 | 实例维度 | 否 | PrestoWorker 发生 full GC | 参数调优 |
Presto Worker JVM 内存使用率持续高于阈值 | Presto Worker JVM MEM usage consistently goes over the limit | 异常事件 | 实例维度 | 是 | PrestoWorker JVM 内存使用率>=m,持续时间 t 秒(300<=t<=604800) | 调整 PrestoWorker 堆内存大小 |
Alluxio 当前 worker 数量持续低于阈值 | Number of Alluxio worker nodes consistently goes below the limit | 异常事件 | 实例维度 | 是 | Alluxio 当前 Worker 总数持续低于阈值<=m,持续时间 t 秒(300<=t<=604800) | 人工排查 |
Alluxio worker 层上资源使用率持续高于阈值 | Alluxio worker layer resource usage consistently goes over the limit | 异常事件 | 实例维度 | 是 | Alluxio 当前 Worker 的层上容量使用率>=m, 持续时间 t 秒(300<=t<=604800) | 参数调优 |
AlluxioMaster 发生 full GC | Full GC happened in AlluxioMaster | 异常事件 | 实例维度 | 否 | AlluxioMaster 发生full GC | 人工排查 |
AlluxioMaster JVM 内存使用率持续高于阈值 | AlluxioMaster JVM MEM usage consistently goes over the limit | 异常事件 | 实例维度 | 是 | AlluxioMaster JVM 内存使用率 >=m, 持续时间 t 秒(300<=t<=604800) | 调整 AlluxioWorker 堆内存大小 |
AlluxioWorker 发生 full GC | Full GC happened in AlluxioWorker | 异常事件 | 实例维度 | 否 | AlluxioWorker 发生 full GC | 人工排查 |
AlluxioWorker JVM 内存使用率持续高于阈值 | AlluxioWorker JVM MEM usage consistently goes over the limit | 异常事件 | 实例维度 | 是 | AlluxioWorker JVM 内存使用率 >=m, 持续时间 t 秒(300<=t<=604800) | 调整 AlluxioMaster 堆内存大小 |
集群副本倾斜度高于阈值 | The degree of imbalance of cluster replicas exceeds the limit. | 异常事件 | 实例维度 | 是 | 集群副本倾斜度 >=m,持续时间 t 秒(300<=t<=3600) | 使用 rebalance 命令对 replica 进行平衡 |
混合时钟错误高于阈值 | Number of hybrid clock errors exceeds the limit | 异常事件 | 实例维度 | 是 | 混合时钟错误 >=m,持续时间 t 秒(300<=t<=3600) | 确保 NTP daemon 处于运行状态,确保与 NTP server 的网络通信正常 m=5000000, t=300 |
处于运行中状态的 tablet 高于阈值 | Number of running tablets exceeds the limit | 异常事件 | 实例维度 | 是 | 处于运行中状态的 tablet 数量 >=m,持续时间 t 秒(300<=t<=3600) | 单个节点 tablet 数量太多会影响性能,建议清理不需要的表和分区,或适当扩容 |
处于失败状态的 tablet 高于阈值 | Number of failed tablets exceeds the limit | 异常事件 | 实例维度 | 是 | 处于失败状态的 tablet 数量 >=m,持续时间 t 秒(300<=t<=3600) | 检查是否有磁盘不可用或者数据文件损坏 |
处于失败状态的数据目录数量高于阈值 | Number of failed data directories exceeds the limit. | 异常事件 | 实例维度 | 是 | 处于失败状态的数据目录数量 >=m,持续时间 t 秒(300<=t<=3600) | 检查 fs_data_dirs 参数中配置的路径是否可用 |
容量耗尽的数据目录数量高于阈值 | Number of fully-occupied data directories exceeds the limit | 异常事件 | 实例维度 | 是 | 容量耗尽的数据目录数量 >=m,持续时间 t 秒(120<=t<=3600) | 清理废弃的数据文件,或适当扩容 |
因队列过载被拒绝的写请求数高于阈值 | Number of write requests rejected due to queue overload exceeds the limit. | 异常事件 | 实例维度 | 是 | 因队列过载被拒绝的写请求数>=m,持续时间 t 秒(300<=t<=3600) | 检查是否存在写热点或者工作线程数量偏少 |
过期 scanner 的数量高于阈值 | Number of expired scanners exceeds the limit | 异常事件 | 实例维度 | 是 | 过期 scanner 的数量 >=m,持续时间 t 秒(300<=t<=3600) | 数据读取完成后,记得调用 scanner 的 close 方法 |
错误日志的数量高于阈值 | Number of error logs exceeds the limit | 异常事件 | 实例维度 | 是 | 错误日志的数量 >=m,持续时间 t 秒(300<=t<=3600) | 人工排查 |
在队列中等待超时的 rpc 请求数量高于阈值 | Number of RPC requests timed out in the queue exceeds the limit. | 异常事件 | 实例维度 | 是 | 在队列中等待超时的 rpc 请求数量 >=m,持续时间 t 秒(300<=t<=3600) | 检查系统负载是否过高 |
Kerberos 响应时间持续高于阈值 | The Kerberos response time goes over the limit consistently. | 异常事件 | 实例维度 | 是 | Kerberos 响应时间>=m(单位毫秒),持续时间t 秒(300<=t<=604800) | 人工排查 |
自动伸缩策略执行失败 | Execution of auto-scaling policy failed | 异常事件 | 实例维度 | 否 | 集群绑定的子网弹性 IP 不足,扩容规则执行失败 预设扩容资源规格库存不足,扩容规则执行失败 账号余额不足,扩容规则执行失败 内部错误 | 更换同 vpc 下的其他子网 可尝试更换充足的资源规格或 提交工单 联系内部研发人员 进行账户余额充值,保证账号余额充足 提交工单 联系内部研发人员 |
自动伸缩策略未触发 | The auto-scaling policy is not triggered. | 异常事件 | 实例维度 | 否 | 未设置扩容资源规格,扩容规则无法触发 弹性资源已达到最大节点数限制,无法触发扩容 弹性资源已达到最小节点数限制,无法触发缩容 时间伸缩执行时间范围已到期 集群无弹性资源,缩容规则无法触发 | 添加伸缩规格配置,请至少设置一个弹性资源规格 弹性资源超过最大节点数,如需继续扩容,可尝试调整最大节点数 弹性资源达到最小节点数,如需继续缩容,可尝试调整最小节点数 如需继续使用该规则,请修改规则的生效时间范围 补充弹性资源后执行缩容规则 |
按比例放大部分成功 | Auto scaling up task partially succeeded | 异常事件 | 实例维度 | 否 | 资源库存量小于扩容数量,仅补充部分资源 扩容数量大于实际发货数量,仅补充部分资源 扩容弹性资源已达到最大节点数限制,扩容规则执行部分成功 缩容弹性资源已达到最小节点数限制,缩容规则执行部分成功 集群绑定的子网弹性 IP 不足,资源补足失败 预设扩容资源规格库存不足,资源补足失败 账号余额不足,资源补足失败 | 手动扩容库存充足资源,用于补充缺少需求资源 手动扩容库存充足资源,用于补充缺少需求资源 弹性资源超过最大节点数,如需继续扩容,可尝试调整最大节点数。 弹性资源达到最小节点数,如需继续缩容,可尝试调整最小节点数。 更换同 vpc 下的其他子网。 可尝试更换充足的资源规格或 提交工单 联系内部研发人员。 进行账户余额充值,保证账号余额充足。 |
JVM OLD 区异常 | JVM OLD generation exception | 异常事件 | 实例维度 | 是 | JVM OLD 区异常 | 人工排查 |
服务角色健康状态超时 | Service role health check request timed out | 异常事件 | 实例维度 | 是 | 服务角色健康状态超时,持续时间 t 秒(180=t<=604800) | 服务角色健康状态连续分钟级超时。处理方式:查看对应服务角色日志信息,根据日志处理。 |
服务角色健康状态异常 | Service role status abnormal | 异常事件 | 实例维度 | 是 | 服务角色健康状态异常,持续时间 t 秒(180=t<=604800) | 服务角色健康状态连续分钟级不可用; 处理方式:查看对应服务角色日志信息,根据日志处理 |
自动伸缩策略过期 | Auto-scaling policy expired | 异常事件 | 实例维度 | 否 | 自动伸缩策略过期 | 人工排查 |
节点角色进程重启 | Node role process restarted | 异常事件 | 实例维度 | 否 | 节点角色进程重启 | 人工排查 |
组件监控事件
事件中文名 | 事件英文名 | 事件类型 | 从属维度 | 有无恢复概念 | 事件描述 | 处理方法和建议 |
腾讯 MapReduce | BootstrapScriptFailure | 异常事件 | 实例维度 | 无 | 引导脚本执行失败 | 人工排查 |
腾讯 MapReduce | YarnRmNoActiveStatusMoreThanThreshold | 异常事件 | 实例维度 | 无 | YARN ResourceManager 无 active 状态 | 人工排查 |
腾讯 MapReduce | YarnApplicationJobRunFailedCountsMoreThanThreshold | 异常事件 | 实例维度 | 无 | Yarn Application 作业运行失败次数持续高于阈值 | 人工排查 |
腾讯 MapReduce | HDFSNameNodeMissedCheckpoint | 异常事件 | 实例维度 | 无 | NameNode 长时间未做 Checkpoint | 可能是 hdfs 的数据损坏过多,请使用命令 hadoop fsck / 检查 hdfs 文件分布的情况 |