腾讯云可观测平台弹性 MapReduce

由客户云上购买和使用的资源实例与产品产生的监控事件
事件中文名
事件英文名
事件类型
从属维度
有无恢复概念
事件描述
处理方法和建议
DataNode 发生 full GC
DataNodeFullGC
异常事件
实例维度
否
DataNode 发生 full GC
DataNode 参数调优
CPU IOwait 平均值高于阈值
CpuIOWaitAvgMoreThanThreshold
异常事件
实例维度
是
CPU IOwait 平均值高于阈值
人工排查
CPU1分钟负载连续高于阈值
CpuLoad1mMoreThanThreshold
异常事件
实例维度
是
CPU1分钟负载连续高于阈值
节点扩容或升配
CPU5分钟负载连续高于阈值
CpuLoad5mMoreThanThreshold
异常事件
实例维度
是
CPU5分钟负载连续高于阈值
节点扩容或升配
内存使用率持续高于阈值
MemoryFreeException
异常事件
实例维度
是
内存使用率持续高于阈值
节点扩容或升配
系统进程总数连续高于阈值
ProcessCntMoreThanThreshold
异常事件
实例维度
是
系统进程总数连续高于阈值
人工排查
节点文件句柄使用率持续超过阈值
FDAllocatedException
异常事件
实例维度
是
节点文件句柄使用率持续超过阈值
人工排查
节点 TCP 连接数持续超过阈值
TCPConnectionsEstablishedException
异常事件
实例维度
是
节点 TCP 连接数持续超过阈值
检查是否存在连接泄露
元数据库 Ping 失败
MetaDBPingFail
异常事件
实例维度
否
元数据库 Ping 失败
人工排查
NameNode 发生主备切换
HDFSNameNodeSwitch
异常事件
实例维度
否
NameNode 发生主备切换
人工排查
NameNode RPC 请求处理延迟持续高于阈值
HDFSNameNodeRpcDelayMoreThanThreshold
异常事件
实例维度
是
NameNode RPC 请求处理延迟持续高于阈值
人工排查
NameNode 发生 full GC
NameNodeFullGC
异常事件
实例维度
否
NameNode 发生 full GC
NameNode 参数调优
NameNode JVM 内存使用率持续高于阈值
NameNodeJvmMemoryUsageMoreThanThreshold
异常事件
实例维度
是
NameNode JVM 内存使用率持续高于阈值
调整 NameNode 堆内存大小
DataNode RPC 请求处理延迟持续高于阈值
HDFSDataNodeRpcDelayMoreThanThreshold
异常事件
实例维度
是
DataNode RPC 请求处理延迟持续高于阈值
人工排查
DataNode 当前连接数持续高于阈值
DataNodeConnectionsMoreThanThreshold
异常事件
实例维度
是
DataNode 当前连接数持续高于阈值
人工排查
DataNode JVM 内存使用率持续高于阈值
DataNodeJvmMemoryUsageMoreThanThreshold
异常事件
实例维度
是
DataNode JVM 内存使用率持续高于阈值
调整 DataNode 堆内存大小
ResourceManager 发生主备切换
YarnRMSwitch
异常事件
实例维度
否
ResourceManager 发生主备切换
检查 RM 进程状态，查看 standby RM 日志查看主备切换原因
ResourceManager 发生 full GC
YarnRmFullGCMoreThanThreshold
异常事件
实例维度
否
ResourceManager 发生 full GC
ResourceManager 参数调优
ResourceManager JVM 内存使用率持续高于阈值
YarnRmJvmMemoryUsageMoreThanThreshold
异常事件
实例维度
是
ResourceManager JVM内存使用率持续高于阈值
调整 ResourceManager 堆内存大小
NodeManager 发生 full GC
YarnNmFullGCMoreThanThreshold
异常事件
实例维度
否
NodeManager 发生 full GC
NodeManager 参数调优
NodeManager 可用的内存持续低于阈值
YarnNmAvailableMemoryLessThanThreshold
异常事件
实例维度
是
NodeManager 可用的内存持续低于阈值
调整 NodeManager 堆内存大小
NodeManager JVM 内存使用率持续高于阈值
YarnNmJvmMemoryUsageMoreThanThreshold
异常事件
实例维度
是
NodeManager JVM 内存使用率持续高于阈值
调整 NodeManager 堆内存大小
集群每个 RS 平均 REGION 数持续高于阈值
HbaseRegionAvgNumMoreThanThreshold
异常事件
实例维度
是
集群每个 RS 平均 REGION 数持续高于阈值
节点扩容或升配
HMaster 发生 full GC
HbaseHmFullGCMoreThanThreshold
异常事件
实例维度
否
HMaster 发生 full GC
HMaster 参数调优
HMaster JVM 内存使用率持续高于阈值
HbaseHmJvmMemoryUsageMoreThanThreshold
异常事件
实例维度
是
HMaster JVM 内存使用率持续高于阈值
调整 HMaster 堆内存大小
HMaster 当前连接数持续高于阈值
HbaseHmRpcConnectionNumMoreThanThreshold
异常事件
实例维度
是
HMaster 当前连接数持续高于阈值
人工排查
RegionServer 发生 full GC
HbaseRsFullGCMoreThanThreshold
异常事件
实例维度
否
RegionServer 发生 full GC
RegionServer 参数调优
RegionServer JVM 内存使用率持续高于阈值
HbaseRsJvmMemoryUsageMoreThanThreshold
异常事件
实例维度
是
RegionServer JVM 内存使用率持续高于阈值
调整 RegionServer 堆内存大小
RegionServer 当前 RPC 连接数持续高于阈值
HbaseRsRpcConnectionNumMoreThanThreshold
异常事件
实例维度
是
RegionServer 当前 RPC 连接数持续高于阈值
人工排查
RegionServer Storefile 个数持续高于阈值
HbaseRsStorefileNumMoreThanThreshold
异常事件
实例维度
是
RegionServer Storefile 个数持续高于阈值
建议执行 major compaction
HiveMetaStore 发生 full GC
HiveMetaStoreFullGC
异常事件
实例维度
否
HiveMetaStore 发生 full GC
HiveMetaStore 参数调优
HiveWebHcat 发生 full GC
HiveWebHcatFullGC
异常事件
实例维度
否
HiveWebHcat 发生 full GC
HiveWebcat 参数调优
Zookeeper 连接数持续高于阈值
ZKConnectionsMoreThanThreshold
异常事件
实例维度
是
Zookeeper 连接数持续高于阈值
人工排查
ZNode 节点数量持续高于阈值
ZKZNodesMoreThanThreshold
异常事件
实例维度
是
ZNode 节点数量持续高于阈值
人工排查
HDFS 文件总数持续高于阈值
HDFSFilesTotalNumMoreThanThreshold
异常事件
实例维度
是
HDFS 文件总数持续高于阈值
调大 namenode 内存
HDFS 总 block 数量持续高于阈值
HDFSBlocksTotalNumMoreThanThreshold
异常事件
实例维度
是
HDFS 总 block 数量持续高于阈值
调大 namenode 内存或调大 block size
Dead 状态的数据节点数量持续高于阈值
HDFSDeadNodeNumMoreThanThreshold
异常事件
实例维度
是
HDFS 标记为 Dead 状态的数据节点数量持续高于阈值
人工排查
HDFS 存储空间使用率持续高于阈值
HDFSCapacityUsedRateMoreThanThreshold
异常事件
实例维度
是
HDFS 存储空间使用率持续高于阈值
清理 HDFS 中的文件或对集群扩容
集群内存使用率持续高于阈值
YarnMemoryUsageMoreThanThreshold
异常事件
实例维度
是
集群内存使用率持续高于阈值
集群扩容
集群 CPU 使用率持续高于阈值
YarnCpuUsageMoreThanThreshold
异常事件
实例维度
是
集群 CPU 使用率持续高于阈值
集群扩容
各队列中可用的 CPU 核数持续低于阈值
YarnQueueAvailableVCoresLessThanThreshold
异常事件
实例维度
是
各队列中可用的 CPU 核数持续低于阈值
给队列分配更多资源
各队列中可用的内存持续低于阈值
YarnQueueAvailableMemoryLessThanThreshold
异常事件
实例维度
是
各队列中可用的内存持续低于阈值
给队列分配更多资源
弹性扩缩容失败
AutoScaleFailure
异常事件
实例维度
否
弹性扩缩容失败
人工排查
单盘空间使用率持续高于阈值
SingleDiskSpaceMoreThanThreshold
异常事件
实例维度
是
单盘空间使用率持续高于阈值
节点扩容或升配
单盘 INODES 使用率持续高于阈值
SingleDiskInMoreThanThreshold
异常事件
实例维度
是
单盘 INODES 使用率持续高于阈值
节点扩容或升配
单盘 IO 设备利用率持续高于阈值
SingleDiskUtilMoreThanThreshold
异常事件
实例维度
是
单盘 IO 设备利用率持续高于阈值
节点扩容或升配
HBASE 两个 HMaster  服务状态均为 Standby
HmStandbyStatusMoreThanThreshold
异常事件
实例维度
否
HBASE 两个 HMaster 服务状态均为 Standby
人工排查
节点内存使用配置超过阈值
NodeMemoryUsage exceedsTheLimit
异常事件
实例维度
否
节点上所有角色内存使用配置叠加超过节点物理内存阈值
调整节点进程堆内存分配 90% 严重
子机 UTC 时间和 NTP 时间差值高于阈值
Thedifferencebetween theUTCtimeandNTPtimeoftheserverexceedsthe threshold
异常事件
实例维度
否
子机 UTC 时间和 NTP 时间差值高于阈值(单位毫秒)
确保 NTP daemon 处于运行状态 
确保与 NTP server 的网络通信正常
故障节点自动补偿
Autoreplacementoffailednodes
异常事件
实例维度
否
当开启自动补偿功能后，task 节点和 router 节点异常时，系统将自动购买同机型规格配置进行补偿替换
补偿替换成功，无须关注
补偿替换失败，请前往 控制台 手动销毁，重新购买节点进行替换
节点故障
Nodefailure
异常事件
实例维度
否
集群中有故障节点
请前往 控制台 进行处理或 提交工单来提供帮助
NameNode 连接数持续高于阈值
ThenumberofNameNodeconnectionsconsistentlygoesoverthelimit
异常事件
实例维度
是
NameNode 当前连接数 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
两个 NameNode 服务状态均为 Standby
BoththeNamenodeservicesareinStandbystatus
异常事件
实例维度
否
两个 NameNode 角色同时处于 Standby 状态
人工排查
HDFS MissingBlocks 数量持续高于阈值
ThenumberofHDFSMissingBlocksgoesoverthe limitconsistently
异常事件
实例维度
是
集群 MissingBlocks 数量>=m，持续时间 t 秒(300<=t<=604800)
建议排查 HDFS 出现数据块损坏。使用命令 hadoop fsck / 检查 HDFS 文件分布的情况
HDFS NameNode 进入安全模式
HDFSNameNode enteredthesecurity mode
异常事件
实例维度
否
NameNode 进入安全模式(持续300s) 
建议排查 HDFS 出现数据块损坏。使用命令 hadoop fsck / 检查 HDFS 文件分布的情况
丢失的 NodeManager 数持续高于阈值
ThenumberoflostNodeManagers consistently goesoverthelimit
异常事件
实例维度
是
集群当前丢失的 NodeManager 的个数 >= m，持续时间 t 秒（300<=t<=2592000）
检查 NM 进程状态，检查网络是否畅通 
PendingContainer 个数持续高于阈值
ThenumberofPendingContainersconsistently goesoverthelimit
异常事件
实例维度
是
pengding Containers 个数 >= m个，持续时间 t 秒（300<=t<=2592000）
合理指定 YARN 任务可用资源
RitRegion 个数持续高于阈值
ThenumberofRitRegion consistentlygoesoverthelimit
异常事件
实例维度
是
集群处于 RIT Region 个数 >= m，持续时间 t 秒（300<=t<=2592000）
HBase2.0 版本以下，hbase hbck -fixAssigment
deadRS 数量持续高于阈值
ThenumberofdeadRS consistentlygoesoverthelimit
异常事件
实例维度
是
 dead RegionServer 数量 >= m，持续时间 t 秒（300<=t<=2592000）
人工排查
HiveServer 发生 fullGC
AfullGCistriggeredatHiveServer
异常事件
实例维度
否
HiveServer 发生 fullGC
参数调优
HiveServer_JVM 内存使用率持续高于阈值
HiveServer_JVMmemoryusageconsistentlygoesoverthelimit
异常事件
实例维度
是
HiveServer2 JVM 内存使用率 >= m，持续时间 t 秒（300<=t<=2592000）
调整 HiveServer2 堆内存大小
ImpalaCatalog JVM 内存使用率持续高于阈值
ImpalaCatalogJVMMEMusageconsistentlygoesoverthelimit
异常事件
实例维度
是
ImpalaCatalog JVM 内存使用率>=m，持续时间 t 秒(300<=t<=604800)
调整 ImpalaCatalog 堆内存大小
ImpalaDaemon JVM 内存使用率持续高于阈值
limit.ImpalaDaemonJVMMEMusageconsistentlygoesoverthelimit
异常事件
实例维度
是
ImpalaDaemon JVM 内存使用率>=m，持续时间 t 秒(300<=t<=604800)
调整 ImpalaDaemon 堆内存大小
ImpalaDaemon JVM 内存使用率持续高于阈值
limit.ImpalaDaemon JVM MEM usage consistently goes over the limit
异常事件
实例维度
是
ImpalaDaemon JVM 内存使用率>=m，持续时间 t 秒(300<=t<=604800)
调整 ImpalaDaemon 堆内存大小
Impala Beeswax API 客户端连接数高于阈值
Number of Impala Beeswax API client connections exceeds the limit
异常事件
实例维度
是
Impala Beeswax API 客户端连接数 >=m
控制台调整 impalad.flgs ，配置 fs_sevice_threads 数量
Impala HS2客户端连接数高于阈值
Number of Impala HS2 client connections exceeds the limit
异常事件
实例维度
是
Impala HS2客户端连接数 >=m
控制台调整 impalad.flgs ，配置 fs_sevice_threads 数量
Query 运行时长超过阈值
Query run time period exceeds the limit
异常事件
实例维度
否
Query 运行时长超过阈值>=m(seconds)
人工排查
执行 Query 失败总数高于阈值
Number of failed queries exceeds the limit
异常事件
实例维度
否
执行 Query 失败率高于阈值>=m，统计时间粒度 t 秒(300<=t<=604800)
人工排查
提交 Query 总数高于阈值
Number of submitted queries exceeds the limit
异常事件
实例维度
否
执行 Query 失败总数高于阈值>=m，统计时间粒度 t 秒(300<=t<=604800)
人工排查
执行 Query 失败率高于阈值
Query failure rate exceeds the limit
异常事件
实例维度
否
提交 Query 总数高于阈值 >=m，统计时间粒度 t 秒(300<=t<=604800)
人工排查
PrestoSQL 每分钟失败查询数量超过阈值
Number of failed queries per minute of PrestoSQL goes over the limit
异常事件
实例维度
否
PrestoSQL 失败查询数量 >=m
人工排查
Presto 当前失败节点数量持续高于阈值
Number of failed nodes of Presto consistently goes over the limit
异常事件
实例维度
是
Presto 当前失败节点数量>=m，持续时间 t 秒(300<=t<=604800)
人工排查
Presto 当前资源组排队资源持续高于阈值
Number of queued resources in the Presto resource group consistently goes over the limit
异常事件
实例维度
是
Presto 资源组排队任务>=m，持续时间 t 秒(300<=t<=604800)
参数调优
Presto 每分钟失败查询数量超过阈值
Number of failed queries per minute of Presto goes over the limit
异常事件
实例维度
否
Presto 失败查询数量 >=m
人工排查
Presto Coordinator 发生full GC
Full GC happened in Presto Coordinator
异常事件
实例维度
否
PrestoCoordinator 发生full GC 
参数调优
Presto Coordinator JVM 内存使用率持续高于阈值
Presto Coordinator JVM MEM usage consistently goes over the limit 
异常事件
实例维度
是
PrestoCoordinator JVM 内存使用率>=m，持续时间 t 秒(300<=t<=604800)
调整 PrestoCoordinator 堆内存大小
Presto Worker 发生 full GC
Full GC happened in Presto Worker 
异常事件
实例维度
否
PrestoWorker 发生 full GC 
参数调优
Presto Worker JVM 内存使用率持续高于阈值
Presto Worker JVM MEM usage consistently goes over the limit 
异常事件
实例维度
是
PrestoWorker JVM 内存使用率>=m，持续时间 t 秒(300<=t<=604800)
调整 PrestoWorker 堆内存大小
Alluxio 当前 worker 数量持续低于阈值
Number of Alluxio worker nodes consistently goes below the limit
异常事件
实例维度
是
Alluxio 当前 Worker 总数持续低于阈值<=m，持续时间 t 秒(300<=t<=604800)
人工排查
Alluxio worker 层上资源使用率持续高于阈值
Alluxio worker layer resource usage consistently goes over the limit
异常事件
实例维度
是
Alluxio 当前 Worker 的层上容量使用率>=m, 持续时间 t 秒(300<=t<=604800)
参数调优
AlluxioMaster 发生 full GC
Full GC happened in AlluxioMaster
异常事件
实例维度
否
AlluxioMaster 发生full GC 
人工排查
AlluxioMaster JVM 内存使用率持续高于阈值
AlluxioMaster JVM MEM usage consistently goes over the limit
异常事件
实例维度
是
AlluxioMaster JVM 内存使用率 >=m, 持续时间 t 秒(300<=t<=604800)
调整 AlluxioWorker 堆内存大小
AlluxioWorker 发生 full GC
Full GC happened in AlluxioWorker
异常事件
实例维度
否
AlluxioWorker 发生 full GC
人工排查
AlluxioWorker JVM 内存使用率持续高于阈值
AlluxioWorker JVM MEM usage consistently goes over the limit
异常事件
实例维度
是
AlluxioWorker JVM 内存使用率 >=m, 持续时间 t 秒(300<=t<=604800)
调整 AlluxioMaster 堆内存大小
集群副本倾斜度高于阈值
The degree of imbalance of cluster replicas exceeds the limit.
异常事件
实例维度
是
集群副本倾斜度 >=m，持续时间 t 秒(300<=t<=3600)
使用 rebalance 命令对 replica 进行平衡
混合时钟错误高于阈值
Number of hybrid clock errors exceeds the limit
异常事件
实例维度
是
混合时钟错误 >=m，持续时间 t 秒(300<=t<=3600)
确保 NTP daemon 处于运行状态，确保与 NTP server 的网络通信正常 m=5000000, t=300
处于运行中状态的 tablet 高于阈值
Number of running tablets exceeds the limit
异常事件
实例维度
是
处于运行中状态的 tablet 数量 >=m，持续时间 t 秒(300<=t<=3600)
单个节点 tablet 数量太多会影响性能，建议清理不需要的表和分区，或适当扩容
处于失败状态的 tablet 高于阈值
Number of failed tablets exceeds the limit
异常事件
实例维度
是
处于失败状态的 tablet 数量 >=m，持续时间 t 秒(300<=t<=3600) 
检查是否有磁盘不可用或者数据文件损坏
处于失败状态的数据目录数量高于阈值
Number of failed data directories exceeds the limit.
异常事件
实例维度
是
处于失败状态的数据目录数量 >=m，持续时间 t 秒(300<=t<=3600) 
检查 fs_data_dirs 参数中配置的路径是否可用
容量耗尽的数据目录数量高于阈值
Number of fully-occupied data directories exceeds the limit
异常事件
实例维度
是
容量耗尽的数据目录数量 >=m，持续时间 t 秒(120<=t<=3600)
清理废弃的数据文件，或适当扩容
因队列过载被拒绝的写请求数高于阈值
Number of write requests rejected due to queue overload exceeds the limit.
异常事件
实例维度
是
因队列过载被拒绝的写请求数>=m，持续时间 t 秒(300<=t<=3600)
检查是否存在写热点或者工作线程数量偏少
过期 scanner 的数量高于阈值
Number of expired scanners exceeds the limit
异常事件
实例维度
是
过期 scanner 的数量 >=m，持续时间 t 秒(300<=t<=3600)
数据读取完成后，记得调用 scanner 的 close 方法 
错误日志的数量高于阈值
Number of error logs exceeds the limit
异常事件
实例维度
是
错误日志的数量 >=m，持续时间 t 秒(300<=t<=3600)
人工排查
在队列中等待超时的 rpc 请求数量高于阈值
Number of RPC requests timed out in the queue exceeds the limit.
异常事件
实例维度
是
在队列中等待超时的 rpc 请求数量 >=m，持续时间 t 秒(300<=t<=3600)
检查系统负载是否过高
Kerberos 响应时间持续高于阈值
The Kerberos response time goes over the limit consistently. 
异常事件
实例维度
是
Kerberos 响应时间>=m(单位毫秒)，持续时间t 秒(300<=t<=604800)
人工排查
自动伸缩策略执行失败
Execution of auto-scaling policy failed
异常事件
实例维度
否
集群绑定的子网弹性 IP 不足，扩容规则执行失败
预设扩容资源规格库存不足，扩容规则执行失败
 账号余额不足，扩容规则执行失败
内部错误
更换同 vpc 下的其他子网
可尝试更换充足的资源规格或 提交工单 联系内部研发人员
进行账户余额充值，保证账号余额充足
﻿提交工单 联系内部研发人员
自动伸缩策略未触发
The auto-scaling policy is not triggered.
异常事件
实例维度
否
未设置扩容资源规格，扩容规则无法触发
弹性资源已达到最大节点数限制，无法触发扩容
弹性资源已达到最小节点数限制，无法触发缩容
时间伸缩执行时间范围已到期
集群无弹性资源，缩容规则无法触发
添加伸缩规格配置，请至少设置一个弹性资源规格
弹性资源超过最大节点数，如需继续扩容，可尝试调整最大节点数
弹性资源达到最小节点数，如需继续缩容，可尝试调整最小节点数
如需继续使用该规则，请修改规则的生效时间范围
补充弹性资源后执行缩容规则
按比例放大部分成功
Auto scaling up task partially succeeded 
异常事件
实例维度
否
资源库存量小于扩容数量，仅补充部分资源
扩容数量大于实际发货数量，仅补充部分资源
扩容弹性资源已达到最大节点数限制，扩容规则执行部分成功
缩容弹性资源已达到最小节点数限制，缩容规则执行部分成功
集群绑定的子网弹性 IP 不足，资源补足失败
预设扩容资源规格库存不足，资源补足失败
账号余额不足，资源补足失败
手动扩容库存充足资源，用于补充缺少需求资源
手动扩容库存充足资源，用于补充缺少需求资源
弹性资源超过最大节点数，如需继续扩容，可尝试调整最大节点数。
弹性资源达到最小节点数，如需继续缩容，可尝试调整最小节点数。
更换同 vpc 下的其他子网。
 可尝试更换充足的资源规格或 提交工单 联系内部研发人员。
进行账户余额充值，保证账号余额充足。
JVM OLD 区异常
JVM OLD generation exception
异常事件
实例维度
是
JVM OLD 区异常 
人工排查 
服务角色健康状态超时
Service role health check request timed out
异常事件
实例维度
是
服务角色健康状态超时，持续时间 t 秒(180=t<=604800)
服务角色健康状态连续分钟级超时。处理方式：查看对应服务角色日志信息，根据日志处理。
服务角色健康状态异常
Service role status abnormal
异常事件
实例维度
是
服务角色健康状态异常，持续时间 t 秒(180=t<=604800)
服务角色健康状态连续分钟级不可用；
处理方式：查看对应服务角色日志信息，根据日志处理
自动伸缩策略过期
Auto-scaling policy expired
异常事件
实例维度
否
自动伸缩策略过期
人工排查
节点角色进程重启
Node role process restarted
异常事件
实例维度
否
节点角色进程重启
人工排查
组件监控事件
事件中文名
事件英文名
事件类型
从属维度
有无恢复概念
事件描述
处理方法和建议
腾讯 MapReduce
BootstrapScriptFailure
异常事件
实例维度
无
引导脚本执行失败
人工排查
腾讯 MapReduce
YarnRmNoActiveStatusMoreThanThreshold
异常事件
实例维度
无
YARN ResourceManager 无 active 状态
人工排查
腾讯 MapReduce
YarnApplicationJobRunFailedCountsMoreThanThreshold
异常事件
实例维度
无
Yarn Application 作业运行失败次数持续高于阈值
人工排查
腾讯 MapReduce
HDFSNameNodeMissedCheckpoint
异常事件
实例维度
无
NameNode 长时间未做 Checkpoint
可能是 hdfs 的数据损坏过多，请使用命令 hadoop fsck / 检查 hdfs 文件分布的情况
﻿
事件中文名	事件英文名	事件类型	从属维度	有无恢复概念	事件描述	处理方法和建议
腾讯 MapReduce	BootstrapScriptFailure	异常事件	实例维度	无	引导脚本执行失败	人工排查
腾讯 MapReduce	YarnRmNoActiveStatusMoreThanThreshold	异常事件	实例维度	无	YARN ResourceManager 无 active 状态	人工排查
腾讯 MapReduce	YarnApplicationJobRunFailedCountsMoreThanThreshold	异常事件	实例维度	无	Yarn Application 作业运行失败次数持续高于阈值	人工排查
腾讯 MapReduce	HDFSNameNodeMissedCheckpoint	异常事件	实例维度	无	NameNode 长时间未做 Checkpoint	可能是 hdfs 的数据损坏过多，请使用命令 hadoop fsck / 检查 hdfs 文件分布的情况
弹性 MapReduce

本页目录：

由客户云上购买和使用的资源实例与产品产生的监控事件

组件监控事件