HDFS 监控指标

最近更新时间:2024-07-05 10:45:41

我的收藏

HDFS-概览

标题
指标名称
指标单位
指标含义
集群存储容量
CapacityTotal
GB
集群存储总容量
CapacityUsed
GB
集群存储已使用容量
CapacityRemaining
GB
集群存储剩余容量
CapacityUsedNonDFS
GB
集群非 HDFS 使用容量
集群负载
TotalLoad
1
当前连接数
集群文件总数量
FilesTotal
总文件数量
BLOCKS 数量
BlocksTotal
总 BLOCK 数量
PendingReplicationBlocks
等待被备份的块数量
UnderReplicatedBlocks
副本数不够的块数量
CorruptBlocks
坏块数量
ScheduledReplicationBlocks
安排要备份的块数量
PendingDeletionBlocks
等待被删除的块数量
ExcessBlocks
多余的块数量
PostponedMisreplicatedBlocks
被推迟处理的异常块数量
BLOCK 容量
BlockCapacity
BLOCK 容量
集群数据节点
NumLiveDataNodes
活的数据节点数量
NumDeadDataNodes
已经标记为 Dead 状态的数据节点数量
NumDecomLiveDataNodes
下线且 Live 的节点数量
NumDecomDeadDataNodes
下线且 Dead 的节点数量
NumDecommissioningDataNodes
正在下线的节点数量
NumStaleDataNodes
标记为过期状态的 DataNode 数目
HDFS 存储空间使用率
CapacityUsedRate
HDFS 集群存储空间使用率
SNAPSHOT 相关
Snapshots
Snapshots 数量
磁盘故障
VolumeFailuresTotal
所有 Datanodes 的卷故障总数

HDFS-NameNode

标题
指标名称
指标单位
指标含义
JVM 内存
MemNonHeapUsedM
MB
JVM 当前已经使用的 NonHeapMemory 的大小
MemNonHeapCommittedM
MB
JVM 配置的 NonHeapCommittedM 的大小
MemHeapUsedM
MB
JVM 当前已经使用的 HeapMemory 的大小
MemHeapCommittedM
MB
JVM HeapMemory 提交大小
MemHeapMaxM
MB
JVM 配置的 HeapMemory 的大小
MemMaxM
MB
JVM 运行时可以使用的最大内存大小
堆内存使率
MemHeapUsedRate
%
JVM 当前已经使用的 HeapMemory 的数量所占 JVM 配置的 HeapMemory 的数量的百分比
数据块汇报延迟
BlockReportAvgTime
次/s
每秒处理 DataNode Blcok 平均延迟
JVM 线程数量
ThreadsNew
处于 NEW 状态的线程数量
ThreadsRunnable
处于 RUNNABLE 状态的线程数量
ThreadsBlocked
处于 BLOCKED 状态的线程数量
ThreadsWaiting
处于 WAITING 状态的线程数量
ThreadsTimedWaiting
处于 TIMED WAITING 状态的线程数量
ThreadsTerminated
处于 Terminated 状态的线程数量
JVM 日志数量
LogFatal
FATAL级别日志数量
LogError
ERROR 级别日志数量
LogWarn
WARN 级别日志数量
LogInfo
INFO 级别日志数量
GC 次数
YGC
Young GC 次数
FGC
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
S1
%
Survivor 1区内存使用占比
E
%
Eden 区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
被标记为过期的存储的数量
NumStaleStorages
所有过期 DataNode 的存储目总数
备 NN 上挂起的与 BLOCK 相关操作的消息数量
PendingDataNodeMessageCount
个/s
DATANODE 的请求被 QUEUE 在 standby namenode 中的个数
缺失块统计
NumberOfMissingBlocks
缺失的数据块数量
NumberOfMissingBlocksWithReplicationFactorOne
缺失的数据库数量(rf = 1)
SNAPSHOT 操作
AllowSnapshotOps
次/s
每秒执行 AllowSnapshot 操作的次数
DisallowSnapshotOps
次/s
每秒执行 DisallowSnapshot 操作的次数
CreateSnapshotOps
次/s
每秒执行 CreateSnapshot 操作的次数
DeleteSnapshotOps
次/s
每秒执行 DeleteSnapshot 操作的次数
ListSnapshottableDirOps
次/s
每秒执行 ListSnapshottableDir 操作次数
SnapshotDiffReportOps
次/s
每秒执行 SnapshotDiffReportOps 的次数
RenameSnapshotOps
次/s
每秒执行 RenameSnapshotOps 的次数
文件操作
CreateFileOps
次/s
每秒执行 CreateFile 操作的次数
GetListingOps
次/s
每秒执行 GetListing 操作的次数
TotalFileOps
次/s
每秒执行 TotalFileOps 的次数
DeleteFileOps
次/s
每秒执行 DeleteFile 操作的次数
FileInfoOps
次/s
每秒执行 FileInfo 操作的次数
GetAdditionalDatanodeOps
次/s
每秒执行 GetAdditionalDatanode 操作的次数
CreateSymlinkOps
次/s
每秒执行 CreateSymlink 操作的次数
GetLinkTargetOps
次/s
每秒执行 GetLinkTarget 操作的次数
FilesInGetListingOps
次/s
每秒执行 FilesInGetListing 操作的次数
文件统计
FilesDeleted
count
文件和文件夹被删除或重命名的数量
FilesCreated
count
文件和文件夹创建数量
FilesAppended
count
Appended 文件数量
文件数量
FilesTotal
count
文件数量
事务操作
TransactionsNumOps
次/s
每秒处理 Journal transaction 操作的次数
TransactionsBatchedInSync
次/s
每秒批量处理 Journal transaction 操作次数
镜像操作
GetEditNumOps
次/s
每秒执行 GetEditNumOps 的次数
GetImageNumOps
次/s
每秒执行 GetImageNumOps 的次数
PutImageNumOps
次/s
每秒执行 PutImageNumOps 的次数
SYNC 操作
SyncsNumOps
次/s
每秒处理 Journal syncs 操作的次数
数据块操作
BlockReceivedAndDeletedOps
次/s
每秒执行 BlockReceivedAndDeletedOps 的次数
BlockOpsQueued
次/s
处理 DataNode Block 上报操作的次数
缓存汇报
CacheReportNumOps
次/s
每秒处理 CacheReport 操作的次数
数据块汇报
BlockReportNumQps
次/s
每秒处理 DataNode Blcok 上报操作的次数
SYNCS 操作延迟
SyncsAvgTime
ms
处理 Journal syncs 操作的平均延迟
Cache 汇报延迟
CacheReportAvgTime
ms
缓存上报动作平均延迟
镜像操作延迟
GetEditAvgTime
ms
读取 Edit 文件操作平均延迟
GetImageAvgTime
ms
读取镜像文件平均延迟
PutImageAvgTime
ms
写入镜像文件平均延迟
事务操作延迟
TransactionsAvgTime
ms
处理 Journal Transaction 操作的平均延迟
启动时间
StartTime
ms
进程启动时间
主备情况
State
1
NameNode HA 状态
主备情况
State
1:主
0:备
NameNode 主备情况
线程数量
PeakThreadCount
峰值线程数
ThreadCount
线程数量
DaemonThreadCount
后台线程数量
上次 Checkpoint 以来事务总数
SinceLastCheckpoint
count
自上次检查点以来的总事务数
Checkpoint 时间
LastCheckpoint
time
上次 Checkpoint 以来的时间
等待文件锁的队列长度
LockQueueLength
count
LockQueueLength 等待文件锁的队列长度
BLOCKS数量
BlocksTotal
count
BLOCK 数量
PendingReplicationBlocks
count
等待被备份的块数量
UnderReplicatedBlocks
count
副本数不够的块数量
CorruptBlocks
count
坏块数量
ScheduledReplicationBlocks
count
安排要备份的块数量
PendingDeletionBlocks
count
等待被删除的块数量
ExcessBlocks
count
多余的块数量
PostponedMisreplicatedBlocks
count
被推迟处理的异常块数量
正在写入的文件数量
NumFilesUnderConstruction
count
正在写入的文件数量
数据流量 QPS(Client RPC)
ReceivedBytes
Bytes/s
接收数据速率
SentBytes
Bytes/s
发送数据速率
QPS(Client RPC)
RpcQueueTimeNumOps
count/s
RPC 调用速率
请求处理延迟(Client RPC)
RpcQueueTimeAvgTime
ms
RPC 平均延迟时间
RpcProcessingTimeAvgTime
ms
RPC 请求平均处理时间
验证和授权(Client RPC)
RpcAuthenticationFailures
count
RPC 验证失败次数
RpcAuthenticationSuccesses
count
RPC 验证成功次数
RpcAuthorizationFailures
count
RPC 授权失败次数
RpcAuthorizationSuccesses
count
RPC 授权成功次数
当前连接数(Client RPC)
NumOpenConnections
count
当前连接数量
RPC 处理队列长度(Client RPC)
CallQueueLength
count
当前 RPC 处理队列长度
数据流量(Service RPC)
ReceivedBytes
Bytes/s
Service RPC 接收数据速率
SentBytes
Bytes/s
Service RPC 发送数据速率
QPS(Service RPC)
RpcQueueTimeNumOps
count/s
Service RPC 调用速率
请求处理延迟(Service RPC)
RpcQueueTimeAvgTime
ms
Service RPC 平均延迟时间
RpcProcessingTimeAvgTime
ms
Service RPC 请求平均处理时间
验证和授权 (Service RPC)
RpcAuthenticationFailures
count
Service RPC 验证失败次数
RpcAuthenticationSuccesses
count
Service RPC 验证成功次数
RpcAuthorizationFailures
count
Service RPC 授权失败次数
RpcAuthorizationSuccesses
count
Service RPC 授权成功次数
当前连接数(Service RPC)
NumOpenConnections
count
当前Service RPC连接数量
RPC处理队列长度(Service RPC)
CallQueueLength
count
当前 Service RPC 处理队列长度
RPC 平均时间(NameNode RPC)
CompleteAvgTime
ms
Complete 请求平均延迟时间
CreateAvgTime
ms
Create 请求平均延迟时间
RenameAvgTime
ms
Rename 请求平均延迟时间
AddBlockAvgTime
ms
AddBlock 请求平均延迟时间
GetListingAvgTime
ms
GetListing 请求平均延迟时间
GetFileInfoAvgTime
ms
GetFileInfo 请求平均延迟时间
SendHeartbeatAvgTime
ms
SendHeartbeat 请求平均延迟时间
RPC 平均时间(NameNode RPC)
RegisterDatanodeAvgTime
ms
RegisterDatanode 请求平均延迟时间
BlockReportAvgTime
ms
BlockReport 请求平均延迟时间
DeleteAvgTime
ms
Delete 请求平均延迟时间
RenewLeaseAvgTime
ms
RenewLease 请求平均延迟时间
BlockReceivedAndDeletedAvgTime
ms
BlockReceivedAndDeleted 请求平均延迟时间
FsyncAvgTime
ms
Fsync 请求平均延迟时间
VersionRequestAvgTime
ms
VersionRequest 请求平均延迟时间
RPC 平均时间(NameNode RPC)
ListEncryptionZonesAvgTime
ms
ListEncryptionZones 请求平均延迟时间
SetPermissionAvgTime
ms
SetPermission 请求平均延迟时间
SetTimesAvgTime
ms
SetTimes 请求平均延迟时间
SetSafeModeAvgTime
ms
SetSafeMode 请求平均延迟时间
MkdirsAvgTime
ms
Mkdirs 请求平均延迟时间
GetServerDefaultsAvgTime
ms
GetServerDefaults 请求平均延迟时间
GetBlockLocationsAvgTime
ms
GetBlockLocations 请求平均延迟时间
RPC 统计(NameNode RPC)
CompleteNumOps
次/s
每秒调用 Complete 的次数
CreateNumOps
次/s
每秒调用 Create 的次数
RenameNumOps
次/s
每秒调用 Rename 的次数
AddBlockNumOps
次/s
每秒调用 AddBlock 的次数
GetListingNumOps
次/s
每秒调用 GetListing 的次数
GetFileInfoNumOps
次/s
每秒调用 GetFileInfo 的次数
SendHeartbeatNumOps
次/s
每秒调用 SendHeartbeat 的次数
RPC 统计(NameNode RPC)
RegisterDatanodeNumOps
次/s
每秒调用 RegisterDatanode 的次数
BlockReportNumOps
次/s
每秒调用 BlockReport 的次数
DeleteNumOps
次/s
每秒调用 Delete 的次数
RenewLeaseNumOps
次/s
每秒调用 RenewLease 的次数
BlockReceivedAndDeletedNumOps
次/s
每秒调用 BlockReceivedAndDeleted 的次数
FsyncNumOps
次/s
每秒调用 Fsync 的次数
VersionRequestNumOps
次/s
每秒调用 VersionRequest 的次数
RPC 统计(NameNode RPC)
ListEncryptionZonesNumOps
次/s
每秒调用 ListEncryptionZones 的次数
SetPermissionNumOps
次/s
每秒调用 SetPermission 的次数
SetTimesNumOps
次/s
每秒调用 SetTimes 的次数
SetSafeModeNumOps
次/s
每秒调用 SetSafeMode 的次数
MkdirsNumOps
次/s
每秒调用 Mkdirs 的次数
GetServerDefaultsNumOps
次/s
每秒调用 GetServerDefaults 的次数
GetBlockLocationsNumOps
次/s
每秒调用 GetBlockLocations 的次数

HDFS-DataNode

标题
指标名称
指标单位
指标含义
XCEIVER 数量
XceiverCount
Xceiver 数量
数据读写速率
BytesWrittenMB
Bytes/s
写入 DN 的字节速率
BytesReadMB
Bytes/s
读取 DN 的字节速率
RemoteBytesReadMB
Bytes/s
远程客户端读取字节速率
RemoteBytesWrittenMB
Bytes/s
远程客户端写入字节速率
客户端连接数
WritesFromRemoteClient
来自远程客户端写操作 QPS
WritesFromLocalClient
来自本地客户端写操作 OPS
ReadsFromRemoteClient
来自远程客户端读操作 QPS
ReadsFromLocalClient
来自本地客户端读操作 QPS
Block校验失败
BlockVerificationFailures
次/s
BLOCK 校验失败数量
磁盘故障
VolumeFailures
次/s
磁盘故障次数
网络错误
DatanodeNetworkErrors
次/s
网络错误统计
心跳延迟
HeartbeatsAvgTime
ms
心跳接口平均时间
心跳 QPS
HeartbeatsNumOps
次/s
心跳接口 QPS
包传输操作RT
SendDataPacketTransferNanosAvgTime
ms
发送数据包平均时间
数据块操作
ReadBlockOpNumOps
次/s
从 DataNode 读取 Block OPS
WriteBlockOpNumOps
次/s
向 DataNode 写入 Block OPS
BlockChecksumOpNumOps
次/s
DataNode 进行 Checksum 操作的 OPS
CopyBlockOpNumOps
次/s
复制 Block 操作的 OPS
ReplaceBlockOpNumOps
次/s
Replace Block 操作的 OPS
BlockReportsNumOps
次/s
BLOCK 汇报动作的 OPS
IncrementalBlockReportsNumOps
次/s
BLOCK 增量汇报的 OPS
CacheReportsNumOps
次/s
缓存汇报的 OPS
PacketAckRoundTripTimeNanosNumOps
次/s
每秒处理 ACK ROUND TRIP 次数
FSYNC 操作
FsyncNanosNumOps
次/s
每秒处理 FSYNC 操作次数
FLUSH 操作
FlushNanosNumOps
次/s
每秒处理 Flush 操作次数
数据块操作延迟统计
ReadBlockOpAvgTime
ms
读取 Block 操作平均时间
WriteBlockOpAvgTime
ms
写 Blcok 操作平均时间
BlockChecksumOpAvgTime
ms
块校验操作平均时间
CopyBlockOpAvgTime
ms
复制块操作平均时间
ReplaceBlockOpAvgTime
ms
Replace Block 操作平均时间
BlockReportsAvgTime
ms
块汇报平均时间
IncrementalBlockReportsAvgTime
ms
增量块汇报平均时间
CacheReportsAvgTime
ms
缓存汇报平均时间
PacketAckRoundTripTimeNanosAvgTime
ms
处理 ACK ROUND TRIP 平均时间
FLUSH 延迟
FlushNanosAvgTime
ns
Flush 操作平均时间
FSYNC 延迟
FsyncNanosAvgTime
ns
Fsync 操作平均时间
RAMDISK Blocks
RamDiskBlocksWrite
块/s
写入内存的块的总数
RamDiskBlocksWriteFallback
块/s
写入内存但未成功的块总数(故障转移到磁盘)
RamDiskBlocksDeletedBeforeLazyPersisted
块/s
应用程序在被保存到磁盘之前被删除的块的总数
RamDiskBlocksReadHits
块/s
内存中的块被读取的总次数
RamDiskBlocksEvicted
块/s
内存中被清除的块总数
RamDiskBlocksEvictedWithoutRead
块/s
从内存中取出的内存块总数
RamDiskBlocksLazyPersisted
块/s
惰性写入器写入磁盘的总数
RamDiskBytesLazyPersisted
Bytes/s
由惰性写入器写入磁盘的总字节数
RAMDISK 写入速度
RamDiskBytesWrite
Bytes/s
写入内存的总字节数
JVM 内存
MemNonHeapUsedM
MB
JVM 当前已经使用的 NonHeapMemory 的大小
MemNonHeapCommittedM
MB
JVM 配置的 NonHeapCommittedM 的大小
MemHeapUsedM
MB
JVM 当前已经使用的 HeapMemory 的大小
MemHeapCommittedM
MB
JVM HeapMemory 提交大小
MemHeapMaxM
MB
JVM 配置的 HeapMemory 的大小
MemMaxM
MB
JVM 运行时可以使用的最大内存大小
堆内存使率
MemHeapUsedRate
%
JVM 当前已经使用的 HeapMemory 的数量所占 JVM 配置的 HeapMemory 的数量的百分比
JVM 线程数量
ThreadsNew
处于 NEW 状态的线程数量
ThreadsRunnable
处于 RUNNABLE 状态的线程数量
ThreadsBlocked
处于 BLOCKED 状态的线程数量
ThreadsWaiting
处于 WAITING 状态的线程数量
ThreadsTimedWaiting
处于 TIMED WAITING 状态的线程数量
ThreadsTerminated
处于 Terminated 状态的线程数量
JVM 日志数量
LogFatal
Fatal 日志数量
LogError
Error 日志数量
LogWarn
Warn 日志数量
LogInfo
Info 日志数量
GC 次数
YGC
Young GC 次数
FGC
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
数据速率
ReceivedBytes
Bytes/s
接收数据速率
SentBytes
Bytes/s
发送数据速率
QPS
RpcQueueTimeNumOps
次/s
RPC 调用速率
请求处理延迟
RpcQueueTimeAvgTime
ms
RPC 平均延迟时间
RpcProcessingTimeAvgTime
次/s
RPC 请求平均处理时间
验证和授权
RpcAuthenticationFailures
次/s
RPC 验证失败次数
RpcAuthenticationSuccesses
次/s
RPC 验证成功次数
RpcAuthorizationFailures
次/s
RPC 授权失败次数
RpcAuthorizationSuccesses
次/s
RPC 授权成功次数
当前连接数
NumOpenConnections
当前链接数量
RPC 处理队列长度
CallQueueLength
1
当前 RPC 处理队列长度
CPU 时间
CurrentThreadSystemTime
ms
系统时间
CurrentThreadUserTime
ms
用户时间
启动时间
StartTime
s
进程启动时间
线程数量
PeckThreadCount
峰值线程数量
DaemonThreadCount
后台线程数量
读写延迟
write
ms
写操作耗时
read
ms
读操作耗时
包传输操作 QPS
DataPacketOps
次/s
包传输操作 QPS
Block 数量
跟盘信息相关例如:/data/qcloud/data/hdfs
Block 数量
使用磁盘容量
跟盘信息相关例如:/data/qcloud/data/hdfs
GB
使用磁盘容量
空闲磁盘容量
跟盘信息相关例如:/data/qcloud/data/hdfs
GB
空闲磁盘容量
预留磁盘容量
跟盘信息相关例如:/data/qcloud/data/hdfs
GB
预留磁盘容量

HDFS-JournalNode

标题
指标名称
指标单位
指标含义
JVM 内存
MemNonHeapUsedM
MB
JVM 当前已经使用的 NonHeapMemory 的大小
MemNonHeapCommittedM
MB
JVM 配置的 NonHeapCommittedM 的大小
MemHeapUsedM
MB
JVM 当前已经使用的 HeapMemory 的大小
MemHeapCommittedM
MB
JVM HeapMemory 提交大小
MemHeapMaxM
MB
JVM 配置的 HeapMemory 的大小
MemMaxM
MB
JVM 运行时可以使用的最大内存大小
堆内存使率
MemHeapUsedRate
%
JVM 当前已经使用的 HeapMemory 的数量所占 JVM 配置的 HeapMemory 的数量的百分比
JVM 线程数量
ThreadsNew
处于 NEW 状态的线程数量
ThreadsRunnable
处于 RUNNABLE 状态的线程数量
ThreadsBlocked
处于 BLOCKED 状态的线程数量
ThreadsWaiting
处于 WAITING 状态的线程数量
ThreadsTimedWaiting
处于 TIMED WAITING 状态的线程数量
ThreadsTerminated
处于 Terminated 状态的线程数量
JVM 日志数量
LogFatal
FATAL 级别日志数量
LogError
ERROR 级别日志数量
LogWarn
WARN 级别日志数量
LogInfo
INFO 级别日志数量
GC 次数
YGC
Young GC 次数
FGC
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
数据流量
ReceivedBytes
Bytes/s
接收数据速率
SentBytes
Bytes/s
发送数据速率
请求处理延迟
RpcQueueTimeAvgTime
ms
RPC 平均延迟时间
验证和授权
RpcAuthenticationFailures
次/s
RPC 验证失败次数
RpcAuthenticationSuccesses
次/s
RPC 验证成功次数
RpcAuthorizationFailures
次/s
RPC 授权失败次数
RpcAuthorizationSuccesses
次/s
RPC 授权成功次数
当前连接数
NumOpenConnections
当前链接数量
RPC处理队列长度
CallQueueLength
1
当前 RPC 处理队列长度
CPU 时间
CurrentThreadSystemTime
ms
系统时间
CurrentThreadUserTime
ms
用户时间
启动时间
StartTime
s
进程启动时间
线程数量
PeckThreadCount
峰值线程数量
DaemonThreadCount
后台线程数量

HDFS-ZKFC

标题
指标名称
指标单位
指标含义
GC 次数
YGC
Young GC 次数
FGC
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比

HDFS-Router

标题
指标名称
指标单位
指标含义
GC 次数
YGC
count
Young GC 次数
FGC
count
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
JVM 线程数量
ThreadsNew
count
处于 NEW 状态的线程数量
ThreadsRunnable
count
处于 RUNNABLE 状态的线程数量
ThreadsBlocked
count
处于 BLOCKED 状态的线程数量
ThreadsWaiting
count
处于 WAITING 状态的线程数量
ThreadsTimedWaiting
count
处于 TIMED WAITING 状态的线程数量
ThreadsTerminated
count
处于 Terminated 状态的线程数量
JVM 日志数量
LogFatal
count
FATAL 级别日志数量
LogError
count
ERROR 级别日志数量
LogWarn
count
WARN 级别日志数量
LogInfo
count
INFO 级别日志数量
JVM 内存
MemNonHeapUsedM
MB
进程使用的非堆内存大小
MemNonHeapCommittedM
MB
进程 commit 的非堆内存大小
MemHeapUsedM
MB
进程使用的堆内存大小
MemHeapCommittedM
MB
进程 commit 的堆内存大小
MemHeapMaxM
MB
进程最大的堆内存大小
MemMaxM
MB
进程最大内存大小
线程数量
DaemonThreadCount
count
进程的 Daemon 线程数
ThreadCount
count
进程的线程数
PeakThreadCount
count
进程的 Peak 线程数
数据流量
ReceivedBytes
Bytes/s
接收数据速率
SentBytes
Bytes/s
发送数据速率
QPS
RpcQueueTimeNumOps
次/s
RPC 调用速率
请求处理延迟
RpcQueueTimeAvgTime
ms
RPC 平均延迟时间
RpcProcessingTimeAvgTime
ms
RPC 请求平均处理时间
验证和授权
RpcAuthenticationFailures
count
RPC验证失败次数
RpcAuthenticationSuccesses
count
RPC 验证成功次数
RpcAuthorizationFailures
count
RPC 授权失败次数
RpcAuthorizationSuccesses
count
RPC 授权成功次数
当前连接数
NumOpenConnections
count
当前连接数量
RPC 处理队列长度
CallQueueLength
count
当前 RPC 处理队列长 度
堆内存使用率
MemHeapUsedRate
%
堆内存使用占比
文件数量
NumFiles
count
当前文件和目录的数量
nameservices 数量
NumNameservice s
count
nameservices 的数量
namenodes 数量
NumExpiredNamenodes
count
过期的 namenodes 的数量
NumNamenodes
count
namenodes 的数量
Router 操作数
ProcessingOp
count /s
每秒 Router 内部处理的 操作数
ProxyOp
count/s
每秒 Router 代理到 Namenode 的操作数量
失败请求数
RouterFailureStateStore
count/s
每秒由于状态存储不可用而导致的失败请求数
RouterFailureReadOnly
count/s
每秒由于只读挂载点而导致的失败请求数
RouterFailureLocked
count/s
每秒由于路径锁定而导致的失败请求数
RouterFailureSafemode
count/s
每秒由于安全模式而导致的失败请求数
Router 处理操作平均时间
ProcessingAvgTime
ns
Router 处理操作的平均时间
ProxyAvgTime
ns
Router 代理操作到 Namenodes 的平均时间
StateStore 事务操作
ReadsNumOps
count/s
每秒 GET 事务数
WritesNumOps
count/s
每秒 PUT 事务数
RemovesNumOps
count/s
每秒 REMOVE 事务数
FailuresNumOps
count/s
每秒失败事务数
StateStore 事务操作平均时间
ReadsAvgTime
ms
State Store 的 GET 事务平均时间
WritesAvgTime
ms
State Store 进行 PUT 事务的平均时间
RemovesAvgTime
ms
State Store 进行 REMOVE 事务的平均时间
FailuresAvgTime
ms
State Store 失败事务的平均时间