RSS 监控指标

最近更新时间:2024-06-19 17:20:01

我的收藏

RSS-Coordinator

标题
指标名称
指标单位
指标含义
Server 数量
Running
count
注册到 coordinator 的 ShuffleServer 数量
Excluded
count
在 exclude 文件列表的 ShuffleServer 节点数量
Unhealthy
count
不健康 ShuffleServer 的节点数量
App 数量
Running
count
注册到 coordinator 的运行中的 application 的数量
Total
count
总的 application 数量
请求数量
LoadDenied
count
由于 ShuffleServer 内存负载太高导致拒绝服务的请求数
QuotaDenied
count
用户级别 Application quota 数量控制导致拒绝服务的请求数
GC次数
YGC
count
Young GC 次数
FGC
count
Full GC 次数
GC时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
JVM 内存
MemHeapUsedM
bytes
已使用的堆内存
MemNonHeapUsedM
bytes
已使用的堆外内存
MemHeapCommittedM
bytes
已提交的堆内存
MemNonHeapCommittedM
bytes
已提交的堆外内存
MemHeapMaxM
bytes
最大堆内存
MemNonHeapMaxM
bytes
最大堆外内存
MemHeapInitM
bytes
初始堆内存
MemNonHeapInitM
bytes
初始堆外内存
文件描述符数
MaxFileDescriptorCount
count
最大文件描述符数
OpenFileDescriptorCount
count
打开文件描述符数
进程数量
PeakThreadCount
count
峰值线程数
ThreadCount
count
总线程数量
DaemonThreadCount
count
Daemon 线程数量
进程运行时间
Uptime
s
进程运行时间
进程启动时间
StartTime
s
进程启动时间
堆内存使用率
MemHeapUsedRate
%
堆内存使用占比

RSS-ShuffleServer

标题
指标名称
指标单位
指标含义
Data Info
Received
bytes
ShuffleServer 接收到的数据量
Write
bytes
ShuffleServer Flush 到磁盘/远端存储的数据量
WriteHdfs
bytes
写到 HDFS 上的数据量

WriteLocal
bytes
写到本地存储上的数据量
Write Block 数量
Count
count
ShuffleServer Flush 到磁盘/远端存储的 Block 数量
Write Flush 时间
Time
ms
ShuffleServer Flush 数据到磁盘/远端存储的耗时
Write Flush 线程
Count
count
ShuffleServer 并发 Flush 数据到盘的线程数量
Write Flush 数量
Total
count
ShuffleServer Flush 到磁盘/远端存储的次数
Slow
count
ShuffleServer Flush 数据到磁盘/远端存储慢的数量,时间由 rss.server.write.slow.threshold 决定
App 数量
App
count
当前在 ShuffleServer 上存储数据的 application 的数量
Partition 数量
Partition
count
当前在 ShuffleServer 上存储数据的 partition 的数量
Event 情况
Queue
count
当前 ShuffleServer flush 队列中的 event 数量
FailedWriten
count
event 持久化失败的数量
Dropped
count
由于 application 不存在或者flush 超时导致event被丢掉的数量
Data Read
Total
bytes
所有 application 从 ShuffleServer 中读取的数据量,包括data 和 index 数据
DataFromLocalStorage
bytes
ShuffleServer 中读取的数据量
IndexFromLocalStorage
bytes
ShuffleServer 中读取的 index 数据量
DataFromMemory
bytes
ShuffleServer 从内存中读取的数据量
Read 时间
Time
ms
总的读取耗时
Required 内存
Total
bytes
读取数据申请的总内存量
Retry
bytes
读取数据申请时进行重试申请的总内存量
Failed
bytes
读取数据申请内存失败的内存量
节点健康情况
IsHealthy
count
当前节点是否健康
Buffer 情况
Allocated
bytes
已分配出来存储数据的内存量
InFlush
bytes
待 flush 到磁盘的内存量
Used
bytes
内存用来存储 shuffle 数据的用量,上限由 rss.server.buffer.capacity 确定
ReadUsed
bytes
用来缓存 shuffle read 数据的用量,上限由 rss.server.read.buffer.capacity 确定
本地存储路径
Total
count
当前节点可用本地存储根目录数量
Corrupted
count
当前节点不可用本地存储根目录数量
本地存储空间
Total
bytes
当前节点本地存储总大小
Used
bytes
当前节点本地存储空间已使用大小
本地存储使用率
Ratio
%
当前节点本地存储空间使用比例
本地存储写入统计
Total
count
写本地存储的总次数
Retry
count
重试写本地存储的次数
Failed
count
写本地存储失败的次数
Success
count
写本地存储成功的次数
App
Total
count
节点上处理过的 application 的累计数量
TotalWithHugePartition
count
有 hue partition 的 application 累计数量
WithHugePartition
count
节点上拥有 huge partition 的 application 数量
Partition
Total
count
节点上存储 partition 的累计数量
TotalHuge
count
节点上 huge partition 的累积数量
Huge
count
节点上当前 huge partition 的数量
Buffer 失败统计
Huge
count
shuffle client 向 ShuffleServer 申请超大内存失败的数量,超大内存由 rss.server.huge-partition.size.threshold 定义
Regular
count
shuffle client 向 ShuffleServer 申请内存存放 shuffle 数据失败的数量
JVM 内存
MemHeapUsedM
bytes
已使用的堆内存
MemNonHeapUsedM
bytes
已使用的堆外内存
MemHeapCommittedM
bytes
已提交的堆内存
MemNonHeapCommittedM
bytes
已提交的堆外内存
MemHeapMaxM
bytes
最大堆内存
MemNonHeapMaxM
bytes
最大堆外内存
MemHeapInitM
bytes
初始堆内存
MemNonHeapInitM
bytes
初始堆外内存
文件描述符数
MaxFileDescriptorCount
count
最大文件描述符数
OpenFileDescriptorCount
count
打开文件描述符数
进程数量
PeakThreadCount
count
峰值线程数
ThreadCount
count
总线程数量
DaemonThreadCount
count
Daemon线程数量
进程运行时间
Uptime
s
进程运行时间
进程启动时间
StartTime
s
进程启动时间
GC 次数
YGC
count
Young GC 次数
FGC
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
垃圾回收时间消耗
YGCT
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
Eden 区内存使用占比
CCS
Compressed class space 区内存使用占比
S1
Survivor 1区内存使用占比
O
Old 区内存使用占比
M
Metaspace 区内存使用占比
堆内存使用率
MemHeapUsedRate
%
堆内存使用占比