RSS-Coordinator
标题 | 指标名称 | 指标单位 | 指标含义 |
Server 数量 | Running | count | 注册到 coordinator 的 ShuffleServer 数量 |
| Excluded | count | 在 exclude 文件列表的 ShuffleServer 节点数量 |
| Unhealthy | count | 不健康 ShuffleServer 的节点数量 |
App 数量 | Running | count | 注册到 coordinator 的运行中的 application 的数量 |
| Total | count | 总的 application 数量 |
请求数量 | LoadDenied | count | 由于 ShuffleServer 内存负载太高导致拒绝服务的请求数 |
| QuotaDenied | count | 用户级别 Application quota 数量控制导致拒绝服务的请求数 |
GC次数 | YGC | count | Young GC 次数 |
| FGC | count | Full GC 次数 |
GC时间 | FGCT | s | Full GC 消耗时间 |
| GCT | s | 垃圾回收时间消耗 |
| YGCT | s | Young GC 消耗时间 |
内存区域占比 | S0 | % | Survivor 0区内存使用占比 |
| E | % | Eden 区内存使用占比 |
| CCS | % | Compressed class space 区内存使用占比 |
| S1 | % | Survivor 1区内存使用占比 |
| O | % | Old 区内存使用占比 |
| M | % | Metaspace 区内存使用占比 |
JVM 内存 | MemHeapUsedM | bytes | 已使用的堆内存 |
| MemNonHeapUsedM | bytes | 已使用的堆外内存 |
| MemHeapCommittedM | bytes | 已提交的堆内存 |
| MemNonHeapCommittedM | bytes | 已提交的堆外内存 |
| MemHeapMaxM | bytes | 最大堆内存 |
| MemNonHeapMaxM | bytes | 最大堆外内存 |
| MemHeapInitM | bytes | 初始堆内存 |
| MemNonHeapInitM | bytes | 初始堆外内存 |
文件描述符数 | MaxFileDescriptorCount | count | 最大文件描述符数 |
| OpenFileDescriptorCount | count | 打开文件描述符数 |
进程数量 | PeakThreadCount | count | 峰值线程数 |
| ThreadCount | count | 总线程数量 |
| DaemonThreadCount | count | Daemon 线程数量 |
进程运行时间 | Uptime | s | 进程运行时间 |
进程启动时间 | StartTime | s | 进程启动时间 |
堆内存使用率 | MemHeapUsedRate | % | 堆内存使用占比 |
RSS-ShuffleServer
标题 | 指标名称 | 指标单位 | 指标含义 |
Data Info | Received | bytes | ShuffleServer 接收到的数据量 |
| Write | bytes | ShuffleServer Flush 到磁盘/远端存储的数据量 |
| WriteHdfs | bytes | 写到 HDFS 上的数据量 |
| WriteLocal | bytes | 写到本地存储上的数据量 |
Write Block 数量 | Count | count | ShuffleServer Flush 到磁盘/远端存储的 Block 数量 |
Write Flush 时间 | Time | ms | ShuffleServer Flush 数据到磁盘/远端存储的耗时 |
Write Flush 线程 | Count | count | ShuffleServer 并发 Flush 数据到盘的线程数量 |
Write Flush 数量 | Total | count | ShuffleServer Flush 到磁盘/远端存储的次数 |
| Slow | count | ShuffleServer Flush 数据到磁盘/远端存储慢的数量,时间由 rss.server.write.slow.threshold 决定 |
App 数量 | App | count | 当前在 ShuffleServer 上存储数据的 application 的数量 |
Partition 数量 | Partition | count | 当前在 ShuffleServer 上存储数据的 partition 的数量 |
Event 情况 | Queue | count | 当前 ShuffleServer flush 队列中的 event 数量 |
| FailedWriten | count | event 持久化失败的数量 |
| Dropped | count | 由于 application 不存在或者flush 超时导致event被丢掉的数量 |
Data Read | Total | bytes | 所有 application 从 ShuffleServer 中读取的数据量,包括data 和 index 数据 |
| DataFromLocalStorage | bytes | ShuffleServer 中读取的数据量 |
| IndexFromLocalStorage | bytes | ShuffleServer 中读取的 index 数据量 |
| DataFromMemory | bytes | ShuffleServer 从内存中读取的数据量 |
Read 时间 | Time | ms | 总的读取耗时 |
Required 内存 | Total | bytes | 读取数据申请的总内存量 |
| Retry | bytes | 读取数据申请时进行重试申请的总内存量 |
| Failed | bytes | 读取数据申请内存失败的内存量 |
节点健康情况 | IsHealthy | count | 当前节点是否健康 |
Buffer 情况 | Allocated | bytes | 已分配出来存储数据的内存量 |
| InFlush | bytes | 待 flush 到磁盘的内存量 |
| Used | bytes | 内存用来存储 shuffle 数据的用量,上限由 rss.server.buffer.capacity 确定 |
| ReadUsed | bytes | 用来缓存 shuffle read 数据的用量,上限由 rss.server.read.buffer.capacity 确定 |
本地存储路径 | Total | count | 当前节点可用本地存储根目录数量 |
| Corrupted | count | 当前节点不可用本地存储根目录数量 |
本地存储空间 | Total | bytes | 当前节点本地存储总大小 |
| Used | bytes | 当前节点本地存储空间已使用大小 |
本地存储使用率 | Ratio | % | 当前节点本地存储空间使用比例 |
本地存储写入统计 | Total | count | 写本地存储的总次数 |
| Retry | count | 重试写本地存储的次数 |
| Failed | count | 写本地存储失败的次数 |
| Success | count | 写本地存储成功的次数 |
App | Total | count | 节点上处理过的 application 的累计数量 |
| TotalWithHugePartition | count | 有 hue partition 的 application 累计数量 |
| WithHugePartition | count | 节点上拥有 huge partition 的 application 数量 |
Partition | Total | count | 节点上存储 partition 的累计数量 |
| TotalHuge | count | 节点上 huge partition 的累积数量 |
| Huge | count | 节点上当前 huge partition 的数量 |
Buffer 失败统计 | Huge | count | shuffle client 向 ShuffleServer 申请超大内存失败的数量,超大内存由 rss.server.huge-partition.size.threshold 定义 |
| Regular | count | shuffle client 向 ShuffleServer 申请内存存放 shuffle 数据失败的数量 |
JVM 内存 | MemHeapUsedM | bytes | 已使用的堆内存 |
| MemNonHeapUsedM | bytes | 已使用的堆外内存 |
| MemHeapCommittedM | bytes | 已提交的堆内存 |
| MemNonHeapCommittedM | bytes | 已提交的堆外内存 |
| MemHeapMaxM | bytes | 最大堆内存 |
| MemNonHeapMaxM | bytes | 最大堆外内存 |
| MemHeapInitM | bytes | 初始堆内存 |
| MemNonHeapInitM | bytes | 初始堆外内存 |
文件描述符数 | MaxFileDescriptorCount | count | 最大文件描述符数 |
| OpenFileDescriptorCount | count | 打开文件描述符数 |
进程数量 | PeakThreadCount | count | 峰值线程数 |
| ThreadCount | count | 总线程数量 |
| DaemonThreadCount | count | Daemon线程数量 |
进程运行时间 | Uptime | s | 进程运行时间 |
进程启动时间 | StartTime | s | 进程启动时间 |
GC 次数 | YGC | count | Young GC 次数 |
| FGC | | Full GC 次数 |
GC 时间 | FGCT | s | Full GC 消耗时间 |
| GCT | | 垃圾回收时间消耗 |
| YGCT | | Young GC 消耗时间 |
内存区域占比 | S0 | % | Survivor 0区内存使用占比 |
| E | | Eden 区内存使用占比 |
| CCS | | Compressed class space 区内存使用占比 |
| S1 | | Survivor 1区内存使用占比 |
| O | | Old 区内存使用占比 |
| M | | Metaspace 区内存使用占比 |
堆内存使用率 | MemHeapUsedRate | % | 堆内存使用占比 |