有奖捉虫:办公协同&微信生态&物联网文档专题 HOT

由客户云上购买和使用的资源实例与产品产生的监控事件

事件中文名
事件英文名
事件类型
从属维度
有无恢复概念
事件描述
处理方法和建议
DataNode 发生 full GC
DataNodeFullGC
异常事件
实例维度
DataNode 发生 full GC
DataNode 参数调优
CPU IOwait 平均值高于阈值
CpuIOWaitAvgMoreThanThreshold
异常事件
实例维度
CPU IOwait 平均值高于阈值
人工排查
CPU1分钟负载连续高于阈值
CpuLoad1mMoreThanThreshold
异常事件
实例维度
CPU1分钟负载连续高于阈值
节点扩容或升配
CPU5分钟负载连续高于阈值
CpuLoad5mMoreThanThreshold
异常事件
实例维度
CPU5分钟负载连续高于阈值
节点扩容或升配
内存使用率持续高于阈值
MemoryFreeException
异常事件
实例维度
内存使用率持续高于阈值
节点扩容或升配
系统进程总数连续高于阈值
ProcessCntMoreThanThreshold
异常事件
实例维度
系统进程总数连续高于阈值
人工排查
节点文件句柄使用率持续超过阈值
FDAllocatedException
异常事件
实例维度
节点文件句柄使用率持续超过阈值
人工排查
节点 TCP 连接数持续超过阈值
TCPConnectionsEstablishedException
异常事件
实例维度
节点 TCP 连接数持续超过阈值
检查是否存在连接泄露
元数据库 Ping 失败
MetaDBPingFail
异常事件
实例维度
元数据库 Ping 失败
人工排查
NameNode 发生主备切换
HDFSNameNodeSwitch
异常事件
实例维度
NameNode 发生主备切换
人工排查
NameNode RPC 请求处理延迟持续高于阈值
HDFSNameNodeRpcDelayMoreThanThreshold
异常事件
实例维度
NameNode RPC 请求处理延迟持续高于阈值
人工排查
NameNode 发生 full GC
NameNodeFullGC
异常事件
实例维度
NameNode 发生 full GC
NameNode 参数调优
NameNode JVM 内存使用率持续高于阈值
NameNodeJvmMemoryUsageMoreThanThreshold
异常事件
实例维度
NameNode JVM 内存使用率持续高于阈值
调整 NameNode 堆内存大小
DataNode RPC 请求处理延迟持续高于阈值
HDFSDataNodeRpcDelayMoreThanThreshold
异常事件
实例维度
DataNode RPC 请求处理延迟持续高于阈值
人工排查
DataNode 当前连接数持续高于阈值
DataNodeConnectionsMoreThanThreshold
异常事件
实例维度
DataNode 当前连接数持续高于阈值
人工排查
DataNode JVM 内存使用率持续高于阈值
DataNodeJvmMemoryUsageMoreThanThreshold
异常事件
实例维度
DataNode JVM 内存使用率持续高于阈值
调整 DataNode 堆内存大小
ResourceManager 发生主备切换
YarnRMSwitch
异常事件
实例维度
ResourceManager 发生主备切换
检查 RM 进程状态,查看 standby RM 日志查看主备切换原因
ResourceManager 发生 full GC
YarnRmFullGCMoreThanThreshold
异常事件
实例维度
ResourceManager 发生 full GC
ResourceManager 参数调优
ResourceManager JVM 内存使用率持续高于阈值
YarnRmJvmMemoryUsageMoreThanThreshold
异常事件
实例维度
ResourceManager JVM内存使用率持续高于阈值
调整 ResourceManager 堆内存大小
NodeManager 发生 full GC
YarnNmFullGCMoreThanThreshold
异常事件
实例维度
NodeManager 发生 full GC
NodeManager 参数调优
NodeManager 可用的内存持续低于阈值
YarnNmAvailableMemoryLessThanThreshold
异常事件
实例维度
NodeManager 可用的内存持续低于阈值
调整 NodeManager 堆内存大小
NodeManager JVM 内存使用率持续高于阈值
YarnNmJvmMemoryUsageMoreThanThreshold
异常事件
实例维度
NodeManager JVM 内存使用率持续高于阈值
调整 NodeManager 堆内存大小
集群每个 RS 平均 REGION 数持续高于阈值
HbaseRegionAvgNumMoreThanThreshold
异常事件
实例维度
集群每个 RS 平均 REGION 数持续高于阈值
节点扩容或升配
HMaster 发生 full GC
HbaseHmFullGCMoreThanThreshold
异常事件
实例维度
HMaster 发生 full GC
HMaster 参数调优
HMaster JVM 内存使用率持续高于阈值
HbaseHmJvmMemoryUsageMoreThanThreshold
异常事件
实例维度
HMaster JVM 内存使用率持续高于阈值
调整 HMaster 堆内存大小
HMaster 当前连接数持续高于阈值
HbaseHmRpcConnectionNumMoreThanThreshold
异常事件
实例维度
HMaster 当前连接数持续高于阈值
人工排查
RegionServer 发生 full GC
HbaseRsFullGCMoreThanThreshold
异常事件
实例维度
RegionServer 发生 full GC
RegionServer 参数调优
RegionServer JVM 内存使用率持续高于阈值
HbaseRsJvmMemoryUsageMoreThanThreshold
异常事件
实例维度
RegionServer JVM 内存使用率持续高于阈值
调整 RegionServer 堆内存大小
RegionServer 当前 RPC 连接数持续高于阈值
HbaseRsRpcConnectionNumMoreThanThreshold
异常事件
实例维度
RegionServer 当前 RPC 连接数持续高于阈值
人工排查
RegionServer Storefile 个数持续高于阈值
HbaseRsStorefileNumMoreThanThreshold
异常事件
实例维度
RegionServer Storefile 个数持续高于阈值
建议执行 major compaction
HiveMetaStore 发生 full GC
HiveMetaStoreFullGC
异常事件
实例维度
HiveMetaStore 发生 full GC
HiveMetaStore 参数调优
HiveWebHcat 发生 full GC
HiveWebHcatFullGC
异常事件
实例维度
HiveWebHcat 发生 full GC
HiveWebcat 参数调优
Zookeeper 连接数持续高于阈值
ZKConnectionsMoreThanThreshold
异常事件
实例维度
Zookeeper 连接数持续高于阈值
人工排查
ZNode 节点数量持续高于阈值
ZKZNodesMoreThanThreshold
异常事件
实例维度
ZNode 节点数量持续高于阈值
人工排查
HDFS 文件总数持续高于阈值
HDFSFilesTotalNumMoreThanThreshold
异常事件
实例维度
HDFS 文件总数持续高于阈值
调大 namenode 内存
HDFS 总 block 数量持续高于阈值
HDFSBlocksTotalNumMoreThanThreshold
异常事件
实例维度
HDFS 总 block 数量持续高于阈值
调大 namenode 内存或调大 block size
Dead 状态的数据节点数量持续高于阈值
HDFSDeadNodeNumMoreThanThreshold
异常事件
实例维度
HDFS 标记为 Dead 状态的数据节点数量持续高于阈值
人工排查
HDFS 存储空间使用率持续高于阈值
HDFSCapacityUsedRateMoreThanThreshold
异常事件
实例维度
HDFS 存储空间使用率持续高于阈值
清理 HDFS 中的文件或对集群扩容
集群内存使用率持续高于阈值
YarnMemoryUsageMoreThanThreshold
异常事件
实例维度
集群内存使用率持续高于阈值
集群扩容
集群 CPU 使用率持续高于阈值
YarnCpuUsageMoreThanThreshold
异常事件
实例维度
集群 CPU 使用率持续高于阈值
集群扩容
各队列中可用的 CPU 核数持续低于阈值
YarnQueueAvailableVCoresLessThanThreshold
异常事件
实例维度
各队列中可用的 CPU 核数持续低于阈值
给队列分配更多资源
各队列中可用的内存持续低于阈值
YarnQueueAvailableMemoryLessThanThreshold
异常事件
实例维度
各队列中可用的内存持续低于阈值
给队列分配更多资源
弹性扩缩容失败
AutoScaleFailure
异常事件
实例维度
弹性扩缩容失败
人工排查
单盘空间使用率持续高于阈值
SingleDiskSpaceMoreThanThreshold
异常事件
实例维度
单盘空间使用率持续高于阈值
节点扩容或升配
单盘 INODES 使用率持续高于阈值
SingleDiskInMoreThanThreshold
异常事件
实例维度
单盘 INODES 使用率持续高于阈值
节点扩容或升配
单盘 IO 设备利用率持续高于阈值
SingleDiskUtilMoreThanThreshold
异常事件
实例维度
单盘 IO 设备利用率持续高于阈值
节点扩容或升配
HBASE 两个 HMaster 服务状态均为 Standby
HmStandbyStatusMoreThanThreshold
异常事件
实例维度
HBASE 两个 HMaster 服务状态均为 Standby
人工排查
节点内存使用配置超过阈值
NodeMemoryUsage exceedsTheLimit
异常事件
实例维度
节点上所有角色内存使用配置叠加超过节点物理内存阈值
调整节点进程堆内存分配 90% 严重
子机 UTC 时间和 NTP 时间差值高于阈值
Thedifferencebetween theUTCtimeandNTPtimeoftheserverexceedsthe threshold
异常事件
实例维度
子机 UTC 时间和 NTP 时间差值高于阈值(单位毫秒)
确保 NTP daemon 处于运行状态
确保与 NTP server 的网络通信正常
故障节点自动补偿
Autoreplacementoffailednodes
异常事件
实例维度
当开启自动补偿功能后,task 节点和 router 节点异常时,系统将自动购买同机型规格配置进行补偿替换
补偿替换成功,无须关注
补偿替换失败,请前往 控制台 手动销毁,重新购买节点进行替换
节点故障
Nodefailure
异常事件
实例维度
集群中有故障节点
请前往 控制台 进行处理或 提交工单来提供帮助
NameNode 连接数持续高于阈值
ThenumberofNameNodeconnectionsconsistentlygoesoverthelimit
异常事件
实例维度
NameNode 当前连接数 >= m,持续时间 t 秒(300<=t<=2592000)
人工排查
两个 NameNode 服务状态均为 Standby
BoththeNamenodeservicesareinStandbystatus
异常事件
实例维度
两个 NameNode 角色同时处于 Standby 状态
人工排查
HDFS MissingBlocks 数量持续高于阈值
ThenumberofHDFSMissingBlocksgoesoverthe limitconsistently
异常事件
实例维度
集群 MissingBlocks 数量>=m,持续时间 t 秒(300<=t<=604800)
建议排查 HDFS 出现数据块损坏。使用命令 hadoop fsck / 检查 HDFS 文件分布的情况
HDFS NameNode 进入安全模式
HDFSNameNode enteredthesecurity mode
异常事件
实例维度
NameNode 进入安全模式(持续300s)
建议排查 HDFS 出现数据块损坏。使用命令 hadoop fsck / 检查 HDFS 文件分布的情况
丢失的 NodeManager 数持续高于阈值
ThenumberoflostNodeManagers consistently goesoverthelimit
异常事件
实例维度
集群当前丢失的 NodeManager 的个数 >= m,持续时间 t 秒(300<=t<=2592000)
检查 NM 进程状态,检查网络是否畅通
PendingContainer 个数持续高于阈值
ThenumberofPendingContainersconsistently goesoverthelimit
异常事件
实例维度
pengding Containers 个数 >= m个,持续时间 t 秒(300<=t<=2592000)
合理指定 YARN 任务可用资源
RitRegion 个数持续高于阈值
ThenumberofRitRegion consistentlygoesoverthelimit
异常事件
实例维度
集群处于 RIT Region 个数 >= m,持续时间 t 秒(300<=t<=2592000)
HBase2.0 版本以下,hbase hbck -fixAssigment
deadRS 数量持续高于阈值
ThenumberofdeadRS consistentlygoesoverthelimit
异常事件
实例维度
dead RegionServer 数量 >= m,持续时间 t 秒(300<=t<=2592000)
人工排查
HiveServer 发生 fullGC
AfullGCistriggeredatHiveServer
异常事件
实例维度
HiveServer 发生 fullGC
参数调优
HiveServer_JVM 内存使用率持续高于阈值
HiveServer_JVMmemoryusageconsistentlygoesoverthelimit
异常事件
实例维度
HiveServer2 JVM 内存使用率 >= m,持续时间 t 秒(300<=t<=2592000)
调整 HiveServer2 堆内存大小
ImpalaCatalog JVM 内存使用率持续高于阈值
ImpalaCatalogJVMMEMusageconsistentlygoesoverthelimit
异常事件
实例维度
ImpalaCatalog JVM 内存使用率>=m,持续时间 t 秒(300<=t<=604800)
调整 ImpalaCatalog 堆内存大小
ImpalaDaemon JVM 内存使用率持续高于阈值
limit.ImpalaDaemonJVMMEMusageconsistentlygoesoverthelimit
异常事件
实例维度
ImpalaDaemon JVM 内存使用率>=m,持续时间 t 秒(300<=t<=604800)
调整 ImpalaDaemon 堆内存大小
ImpalaDaemon JVM 内存使用率持续高于阈值
limit.ImpalaDaemon JVM MEM usage consistently goes over the limit
异常事件
实例维度
ImpalaDaemon JVM 内存使用率>=m,持续时间 t 秒(300<=t<=604800)
调整 ImpalaDaemon 堆内存大小
Impala Beeswax API 客户端连接数高于阈值
Number of Impala Beeswax API client connections exceeds the limit
异常事件
实例维度
Impala Beeswax API 客户端连接数 >=m
控制台调整 impalad.flgs ,配置 fs_sevice_threads 数量
Impala HS2客户端连接数高于阈值
Number of Impala HS2 client connections exceeds the limit
异常事件
实例维度
Impala HS2客户端连接数 >=m
控制台调整 impalad.flgs ,配置 fs_sevice_threads 数量
Query 运行时长超过阈值
Query run time period exceeds the limit
异常事件
实例维度
Query 运行时长超过阈值>=m(seconds)
人工排查
执行 Query 失败总数高于阈值
Number of failed queries exceeds the limit
异常事件
实例维度
执行 Query 失败率高于阈值>=m,统计时间粒度 t 秒(300<=t<=604800)
人工排查
提交 Query 总数高于阈值
Number of submitted queries exceeds the limit
异常事件
实例维度
执行 Query 失败总数高于阈值>=m,统计时间粒度 t 秒(300<=t<=604800)
人工排查
执行 Query 失败率高于阈值
Query failure rate exceeds the limit
异常事件
实例维度
提交 Query 总数高于阈值 >=m,统计时间粒度 t 秒(300<=t<=604800)
人工排查
PrestoSQL 每分钟失败查询数量超过阈值
Number of failed queries per minute of PrestoSQL goes over the limit
异常事件
实例维度
PrestoSQL 失败查询数量 >=m
人工排查
Presto 当前失败节点数量持续高于阈值
Number of failed nodes of Presto consistently goes over the limit
异常事件
实例维度
Presto 当前失败节点数量>=m,持续时间 t 秒(300<=t<=604800)
人工排查
Presto 当前资源组排队资源持续高于阈值
Number of queued resources in the Presto resource group consistently goes over the limit
异常事件
实例维度
Presto 资源组排队任务>=m,持续时间 t 秒(300<=t<=604800)
参数调优
Presto 每分钟失败查询数量超过阈值
Number of failed queries per minute of Presto goes over the limit
异常事件
实例维度
Presto 失败查询数量 >=m
人工排查
Presto Coordinator 发生full GC
Full GC happened in Presto Coordinator
异常事件
实例维度
PrestoCoordinator 发生full GC
参数调优
Presto Coordinator JVM 内存使用率持续高于阈值
Presto Coordinator JVM MEM usage consistently goes over the limit
异常事件
实例维度
PrestoCoordinator JVM 内存使用率>=m,持续时间 t 秒(300<=t<=604800)
调整 PrestoCoordinator 堆内存大小
Presto Worker 发生 full GC
Full GC happened in Presto Worker
异常事件
实例维度
PrestoWorker 发生 full GC
参数调优
Presto Worker JVM 内存使用率持续高于阈值
Presto Worker JVM MEM usage consistently goes over the limit
异常事件
实例维度
PrestoWorker JVM 内存使用率>=m,持续时间 t 秒(300<=t<=604800)
调整 PrestoWorker 堆内存大小
Alluxio 当前 worker 数量持续低于阈值
Number of Alluxio worker nodes consistently goes below the limit
异常事件
实例维度
Alluxio 当前 Worker 总数持续低于阈值<=m,持续时间 t 秒(300<=t<=604800)
人工排查
Alluxio worker 层上资源使用率持续高于阈值
Alluxio worker layer resource usage consistently goes over the limit
异常事件
实例维度
Alluxio 当前 Worker 的层上容量使用率>=m, 持续时间 t 秒(300<=t<=604800)
参数调优
AlluxioMaster 发生 full GC
Full GC happened in AlluxioMaster
异常事件
实例维度
AlluxioMaster 发生full GC
人工排查
AlluxioMaster JVM 内存使用率持续高于阈值
AlluxioMaster JVM MEM usage consistently goes over the limit
异常事件
实例维度
AlluxioMaster JVM 内存使用率 >=m, 持续时间 t 秒(300<=t<=604800)
调整 AlluxioWorker 堆内存大小
AlluxioWorker 发生 full GC
Full GC happened in AlluxioWorker
异常事件
实例维度
AlluxioWorker 发生 full GC
人工排查
AlluxioWorker JVM 内存使用率持续高于阈值
AlluxioWorker JVM MEM usage consistently goes over the limit
异常事件
实例维度
AlluxioWorker JVM 内存使用率 >=m, 持续时间 t 秒(300<=t<=604800)
调整 AlluxioMaster 堆内存大小
集群副本倾斜度高于阈值
The degree of imbalance of cluster replicas exceeds the limit.
异常事件
实例维度
集群副本倾斜度 >=m,持续时间 t 秒(300<=t<=3600)
使用 rebalance 命令对 replica 进行平衡
混合时钟错误高于阈值
Number of hybrid clock errors exceeds the limit
异常事件
实例维度
混合时钟错误 >=m,持续时间 t 秒(300<=t<=3600)
确保 NTP daemon 处于运行状态,确保与 NTP server 的网络通信正常 m=5000000, t=300
处于运行中状态的 tablet 高于阈值
Number of running tablets exceeds the limit
异常事件
实例维度
处于运行中状态的 tablet 数量 >=m,持续时间 t 秒(300<=t<=3600)
单个节点 tablet 数量太多会影响性能,建议清理不需要的表和分区,或适当扩容
处于失败状态的 tablet 高于阈值
Number of failed tablets exceeds the limit
异常事件
实例维度
处于失败状态的 tablet 数量 >=m,持续时间 t 秒(300<=t<=3600)
检查是否有磁盘不可用或者数据文件损坏
处于失败状态的数据目录数量高于阈值
Number of failed data directories exceeds the limit.
异常事件
实例维度
处于失败状态的数据目录数量 >=m,持续时间 t 秒(300<=t<=3600)
检查 fs_data_dirs 参数中配置的路径是否可用
容量耗尽的数据目录数量高于阈值
Number of fully-occupied data directories exceeds the limit
异常事件
实例维度
容量耗尽的数据目录数量 >=m,持续时间 t 秒(120<=t<=3600)
清理废弃的数据文件,或适当扩容
因队列过载被拒绝的写请求数高于阈值
Number of write requests rejected due to queue overload exceeds the limit.
异常事件
实例维度
因队列过载被拒绝的写请求数>=m,持续时间 t 秒(300<=t<=3600)
检查是否存在写热点或者工作线程数量偏少
过期 scanner 的数量高于阈值
Number of expired scanners exceeds the limit
异常事件
实例维度
过期 scanner 的数量 >=m,持续时间 t 秒(300<=t<=3600)
数据读取完成后,记得调用 scanner 的 close 方法
错误日志的数量高于阈值
Number of error logs exceeds the limit
异常事件
实例维度
错误日志的数量 >=m,持续时间 t 秒(300<=t<=3600)
人工排查
在队列中等待超时的 rpc 请求数量高于阈值
Number of RPC requests timed out in the queue exceeds the limit.
异常事件
实例维度
在队列中等待超时的 rpc 请求数量 >=m,持续时间 t 秒(300<=t<=3600)
检查系统负载是否过高
Kerberos 响应时间持续高于阈值
The Kerberos response time goes over the limit consistently.
异常事件
实例维度
Kerberos 响应时间>=m(单位毫秒),持续时间t 秒(300<=t<=604800)
人工排查
自动伸缩策略执行失败
Execution of auto-scaling policy failed
异常事件
实例维度
集群绑定的子网弹性 IP 不足,扩容规则执行失败
预设扩容资源规格库存不足,扩容规则执行失败
账号余额不足,扩容规则执行失败
内部错误
更换同 vpc 下的其他子网
可尝试更换充足的资源规格或 提交工单 联系内部研发人员
进行账户余额充值,保证账号余额充足
提交工单 联系内部研发人员
自动伸缩策略未触发
The auto-scaling policy is not triggered.
异常事件
实例维度
未设置扩容资源规格,扩容规则无法触发
弹性资源已达到最大节点数限制,无法触发扩容
弹性资源已达到最小节点数限制,无法触发缩容
时间伸缩执行时间范围已到期
集群无弹性资源,缩容规则无法触发
添加伸缩规格配置,请至少设置一个弹性资源规格
弹性资源超过最大节点数,如需继续扩容,可尝试调整最大节点数
弹性资源达到最小节点数,如需继续缩容,可尝试调整最小节点数
如需继续使用该规则,请修改规则的生效时间范围
补充弹性资源后执行缩容规则
按比例放大部分成功
Auto scaling up task partially succeeded
异常事件
实例维度
资源库存量小于扩容数量,仅补充部分资源
扩容数量大于实际发货数量,仅补充部分资源
扩容弹性资源已达到最大节点数限制,扩容规则执行部分成功
缩容弹性资源已达到最小节点数限制,缩容规则执行部分成功
集群绑定的子网弹性 IP 不足,资源补足失败
预设扩容资源规格库存不足,资源补足失败
账号余额不足,资源补足失败
手动扩容库存充足资源,用于补充缺少需求资源
手动扩容库存充足资源,用于补充缺少需求资源
弹性资源超过最大节点数,如需继续扩容,可尝试调整最大节点数。
弹性资源达到最小节点数,如需继续缩容,可尝试调整最小节点数。
更换同 vpc 下的其他子网。
可尝试更换充足的资源规格或 提交工单 联系内部研发人员。
进行账户余额充值,保证账号余额充足。
JVM OLD 区异常
JVM OLD generation exception
异常事件
实例维度
JVM OLD 区异常
人工排查
服务角色健康状态超时
Service role health check request timed out
异常事件
实例维度
服务角色健康状态超时,持续时间 t 秒(180=t<=604800)
服务角色健康状态连续分钟级超时。处理方式:查看对应服务角色日志信息,根据日志处理。
服务角色健康状态异常
Service role status abnormal
异常事件
实例维度
服务角色健康状态异常,持续时间 t 秒(180=t<=604800)
服务角色健康状态连续分钟级不可用;
处理方式:查看对应服务角色日志信息,根据日志处理
自动伸缩策略过期
Auto-scaling policy expired
异常事件
实例维度
自动伸缩策略过期
人工排查
节点角色进程重启
Node role process restarted
异常事件
实例维度
节点角色进程重启
人工排查

组件监控事件

事件中文名
事件英文名
事件类型
从属维度
有无恢复概念
事件描述
处理方法和建议
腾讯 MapReduce
BootstrapScriptFailure
异常事件
实例维度
引导脚本执行失败
人工排查
腾讯 MapReduce
YarnRmNoActiveStatusMoreThanThreshold
异常事件
实例维度
YARN ResourceManager 无 active 状态
人工排查
腾讯 MapReduce
YarnApplicationJobRunFailedCountsMoreThanThreshold
异常事件
实例维度
Yarn Application 作业运行失败次数持续高于阈值
人工排查
腾讯 MapReduce
HDFSNameNodeMissedCheckpoint
异常事件
实例维度
NameNode 长时间未做 Checkpoint
可能是 hdfs 的数据损坏过多,请使用命令 hadoop fsck / 检查 hdfs 文件分布的情况