有奖捉虫:行业应用 & 管理与支持文档专题 HOT

YARN-概览

标题
指标名称
指标单位
指标含义
节点个数
NumActiveNMs
当前存活的 NodeManager 个数
NumDecommissionedNMs
当前 Decommissioned 的 NodeManager 个数
NumLostNMs
当前 Lost 的 NodeManager 个数
NumUnhealthyNMs
当前 Unhealthy 的 NodeManager 个数
CPU 核数
AllocatedVCores
当前队列分配的 VCore 个数
ReservedVCores
当前队列中 reserved 的 VCore 个数
AvailableVCores
当前队列可用的 VCore 个数
PendingVCores
当前队列的资源请求中 pending 的 VCore 个数
应用总数
AppsSubmitted
当前队列历史提交作业个数
AppsRunning
当前队列正在运行的作业个数
AppsPending
当前队列 pending 的作业个数
AppsCompleted
当前队列完成的作业个数
AppsKilled
当前队列 kill 掉的作业个数
AppsFailed
当前队列失败的作业个数
ActiveApplications
当前队列中 active 的作业个数
running_0
当前队列中运行作业运行时间≤60分钟的作业个数
running_60
当前队列中运行作业运行时间介于(60,300]分钟的作业个数
running_300
当前队列中运行作业运行时间介于(300,1440]分钟的作业个数
running_1440
当前队列中运行作业运行时间>1440分钟的作业个数
内存大小
AllocatedMB
MB
当前队列分配的内存大小
AvailableMB
MB
当前队列可用的内存大小
PendingMB
MB
当前队列的资源请求中 pending 的内存大小
ReservedMB
MB
当前队列中 reserved 内存大小
容器个数
AllocatedContainers
当前队列分配的 container 个数
PendingContainers
当前队列的资源请求中 pending 的 container 个数
ReservedContainers
当前队列中 reserved 的 container 个数
容器分配释放总数
AggregateContainersAllocated
当前队列分配的 container 总数
AggregateContainersReleased
当前队列 release 的 container 总数
用户数
ActiveUsers
当前队列活跃用户数
Memory
allocatedMB
MB
集群中已分配的内存资源
availableMB
MB
集群中可使用的内存资源
reservedMB
MB
集群中保留的内存资源
totalMB
MB
集群中全部的内存资源
Applications
completed
采样周期内集群中运行完成的作业数
failed
采样周期内集群中运行失败的作业数
killed
采样周期内集群中被杀掉的作业数
pending
采样周期内集群中等待运行的作业数
running
采样周期内集群中运行中的作业数
submitted
采样周期内集群中已提交的作业数
Containers
containersAllocated
集群中已分配的 Container 数目
containersPending
集群中请求中的 Container 数目
containersReserved
集群中保留的 Container 数目
内存使用率
usageRatio
%
集群当前内存资源的使用率
Cores
allocatedVirtualCores
集群中已分配的 CPU 资源
availableVirtualCores
集群中可使用的 CPU 资源
reservedVirtualCores
集群中保留的 CPU 资源
totalVirtualCores
集群中全部的 CPU 资源
CPU 使用率
usageRatio
%
集群当前 CPU 资源的使用率
AM 启动数量
AMLaunchDelayNumOps
AM 启动数量
RM 启动 AM 的平均时间
AMLaunchDelayAvgTime
ms
RM 启动 AM 的平均时间
注册的 AM 总数
AMRegisterDelayNumOps
注册的 AM 总数
AM 注册到 RM 的平均时间
AMRegisterDelayAvgTime
ms
AM 注册到 RM 的平均时间
队列 CPU 使用率
YARN.RM.QUEUE.VCORES.RATIO
当前队列分配 CPU 使用率
队列内存使用率
YARN.RM.QUEUE.MEM.RATIO
当前队列分配内存使用率
可用内存资源百分比
availableMemPercentage
%
集群当前可用内存资源百分比
待分配 Container 百分比
containerPendingRatio
%
待分配 Container 百分比
可用 CPU 百分比
availableCoresPercentage
%
可用 CPU 百分比

YARN-ResourceManager

标题
指标名称
指标单位
指标含义
RPC 认证授权数
RpcAuthenticationFailures
RPC authentication 失败个数
RpcAuthenticationSuccesses
RPC authentication 成功个数
RpcAuthorizationFailures
RPC authorization 失败个数
RpcAuthorizationSuccesses
RPC authorization 成功个数
RPC 接收发送数据量
ReceivedBytes
bytes/s
RPC 接收数据量
SentBytes
bytes/s
RPC 发送数据量
RPC 连接数
NumOpenConnections
当前打开的连接个数
RPC 请求次数
RpcProcessingTimeNumOps
RPC 请求次数
RpcQueueTimeNumOps
RPC 请求次数
RPC 队列长度
CallQueueLength
当前 RPC 队列长度
RPC 平均处理时间
RpcProcessingTimeAvgTime
s
RPC 请求平均处理时间
RpcQueueTimeAvgTime
s
RPC 在 Queue 中平均时间
GC 次数
YGC
Young GC 次数
FGC
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
堆内存使率
MemHeapUsedRate
%
JVM 当前已经使用的 HeapMemory 的数量所占 JVM 配置的 HeapMemory 的数量的百分比
JVM 线程数量
ThreadsNew
处于 NEW 状态的线程数量
ThreadsRunnable
处于 RUNNABLE 状态的线程数量
ThreadsBlocked
处于 BLOCKED 状态的线程数量
ThreadsWaiting
处于 WAITING 状态的线程数量
ThreadsTimedWaiting
处于 TIMED WAITING 状态的线程数量
ThreadsTerminated
处于 Terminated 状态的线程数量
JVM 日志数量
LogFatal
Fatal 日志数量
LogError
Error 日志数量
LogWarn
Warn 日志数量
LogInfo
Info 日志数量
JVM 内存
MemNonHeapUsedM
MB
进程使用的非堆内存大小
MemNonHeapCommittedM
MB
进程 commit 的非堆内存大小
MemHeapUsedM
MB
进程使用的堆内存大小
MemHeapCommittedM
MB
进程 commit 的堆内存大小
MemHeapMaxM
MB
进程最大的堆内存大小
MemMaxM
MB
进程最大内存大小
CPU 利用率
ProcessCpuLoad
%
CPU 利用率
CPU 累计使用时间
ProcessCpuTime
ms
CPU 累计使用时间
文件描述符数
MaxFileDescriptorCount
最大文件描述符数
OpenFileDescriptorCount
打开文件描述符数
进程运行时长
Uptime
s
进程运行时长
工作线程数
DaemonThreadCount
进程的 Daemon 线程个数
ThreadCount
进程的线程个数
节点状态
haState
1:Active,0:Standby
ResourceManager 主备状态
主备切换
switchOccurred
-
ResourceManager 主备切换

YARN-JobHistoryServer

标题
指标名称
指标单位
指标含义
JVM 线程数量
ThreadsNew
处于 NEW 状态的线程数量
ThreadsRunnable
处于 RUNNABLE 状态的线程数量
ThreadsBlocked
处于 BLOCKED 状态的线程数量
ThreadsWaiting
处于 WAITING 状态的线程数量
ThreadsTimedWaiting
处于 TIMED WAITING 状态的线程数量
ThreadsTerminated
处于 Terminated 状态的线程数量
JVM 日志数量
LogFatal
FATAL 级别日志数量
LogError
ERROR 级别日志数量
LogWarn
WARN 级别日志数量
LogInfo
INFO 级别日志数量
JVM 内存
MemNonHeapUsedM
MB
进程使用的非堆内存大小
MemNonHeapCommittedM
MB
进程 commit 的非堆内存大小
MemHeapUsedM
MB
进程使用的堆内存大小
MemHeapCommittedM
MB
进程 commit 的堆内存大小
MemHeapMaxM
MB
进程最大的堆内存大小
MemMaxM
MB
进程最大内存大小
堆内存使率
MemHeapUsedRate
%
JVM 当前已经使用的 HeapMemory 的数量所占 JVM 配置的 HeapMemory 的数量的百分比
GC 次数
YGC
Young GC 次数
FGC
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
CPU 利用率
ProcessCpuLoad
%
CPU 利用率
CPU 累计使用时间
ProcessCpuTime
ms
CPU 累计使用时间
文件描述符数
MaxFileDescriptorCount
最大文件描述符数
OpenFileDescriptorCount
打开文件描述符数
进程运行时长
Uptime
s
进程运行时长
工作线程数
DaemonThreadCount
进程的 Daemon 线程个数
ThreadCount
进程的线程个数

YARN-NodeManager

标题
指标名称
指标单位
指标含义
GC 次数
YGC
Young GC 次数
FGC
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
堆内存使率
MemHeapUsedRate
%
JVM 当前已经使用的 HeapMemory 的数量所占 JVM 配置的 HeapMemory 的数量的百分比
JVM 线程数量
ThreadsNew
处于 NEW 状态的线程数量
ThreadsRunnable
处于 RUNNABLE 状态的线程数量
ThreadsBlocked
处于 BLOCKED 状态的线程数量
ThreadsWaiting
处于 WAITING 状态的线程数量
ThreadsTimedWaiting
处于 TIMED WAITING 状态的线程数量
ThreadsTerminated
当前 TERMINATED 状态线程数量
JVM 日志数量
LogFatal
FATAL 级别日志数量
LogError
ERROR 级别日志数量
LogWarn
WARN 级别日志数量
LogInfo
INFO 级别日志数量
JVM 内存
MemNonHeapUsedM
MB
进程使用的非堆内存大小
MemNonHeapCommittedM
MB
进程 commit 的非堆内存大小
MemHeapUsedM
MB
进程使用的堆内存大小
MemHeapCommittedM
MB
进程 commit 的堆内存大小
MemHeapMaxM
MB
进程最大的堆内存大小
MemMaxM
MB
进程最大内存大小
容器总数
ContainersLaunched
launch 的 container 个数
ContainersCompleted
运行完成的 container 个数
ContainersFailed
失败的 container 个数
ContainersKilled
被 kill 的 container 个数
ContainersIniting
初始化中的 container 个数
ContainersRunning
正在运行的 container 个数
AllocatedContainers
NodeManager 分配的 container 数量
容器启动平均耗时
ContainerLaunchDurationAvgTime
ms
容器启动平均耗时
容器启动操作数
ContainerLaunchDurationNumOps
容器启动操作数
CPU 核数
AvailableVCores
NodeManager 可用的 VCore 个数
AllocatedVCores
NodeManager 分配的 VCore个数
内存大小
AllocatedGB
GB
NodeManager 分配的内存大小
AvailableGB
GB
NodeManager 可用的内存大小
CPU 利用率
ProcessCpuLoad
%
CPU 利用率
CPU 累计使用时间
ProcessCpuTime
ms
CPU 累计使用时间
文件描述符数
MaxFileDescriptorCount
最大文件描述符数
OpenFileDescriptorCount
打开文件描述符数
进程运行时长
Uptime
s
进程运行时长
工作线程数
DaemonThreadCount
进程的 Daemon 线程个数
ThreadCount
进程的线程个数

YARN-Timeline

标题
指标名称
指标单位
指标含义
JVM GC 次数
GcCount
count
JVM GC 次数
JVM GC 时间
GcTimeMillis
ms
JVM GC 时间
JVM 内存
MemNonHeapUsedM
MB
进程使用的非堆内存大小
MemNonHeapCommittedM
MB
进程 commit 的非堆内存大小
MemNonHeapMaxM
MB
进程使用的堆内存大小
MemHeapUsedM
MB
进程 commit的堆内存大小
MemHeapCommittedM
MB
进程最大的堆内存大小
MemHeapMaxM
MB
进程使用的非堆内存大小
获取 domain 操作数
Ops
count
获取 domain 操作数
批量获取 domains 操作数
Ops
count
批量获取 domains 操作数
批量获取 domains平均时间
Time
ms
批量获取 domains平均时间
获取 domain 平均时间
Time
ms
获取 domain 平均时间
批量获取 entities 操作数
Ops
count
批量获取 entities 操作数
获取批量 entities 平均时间
Time
ms
获取批量 entities 平均时间
获取 entity 操作数
Ops
count
获取 entity 操作数
获取 entity 平均时间
Time
ms
获取 entity 平均时间
获取批量 events 操作数
Ops
count
获取批量 events 操作数
获取批量 events 平均时间
Time
ms
获取批量 events 平均时间
更新批量 entities 操作数
Ops
count
更新批量 entities 操作数
更新批量 entities 的平均时间
Time
ms
更新批量 entities 的平均时间
更新 domain 操作数
Ops
count
更新 domain 操作数
更新 domain 平均时间
Time
ms
更新 domain 平均时间