CELEBORN-Master
标题 | 指标名称 | 指标单位 | 指标含义 |
Woker数量 | WorkerCount | Count | 可注册shuffle的worker数量 |
| ExcludedWorkerCount | Count | 排除列表中的worker数量 |
| LostWorkerCount | Count | 丢失的worker数量 |
Registere shuffle数量 | RegisteredShuffleCount | Count | 已注册的shuffle数量 |
Master状态 | IsActiveMaster | None | 当前主节点是否处于活跃状态 |
Estimated Shuffle Partition大小 | PartitionSize | Bytes | 估计的shuffle分区大小 |
Handle RequestSlots Request时间 | OfferSlotsTime_Mean | ms | 主节点在注册shuffle时处理RequestSlots请求的平均时间 |
| OfferSlotsTime_Max | ms | 主节点在注册shuffle时处理RequestSlots请求的最大时间 |
Last Minute System Load | LastMinuteSystemLoad | None | 上一分钟的平均系统负载 |
Available Processors数量 | AvailableProcessors | Count | 系统可用的cpu数量 |
CPU利用率 | ProcessCpuLoad | % | CPU利用率 |
CPU累计使用时间 | ProcessCpuTime | ms | CPU 累计使用时间 |
GC次数 | YGC | Count | Young GC 次数 |
| FGC | Count | Full GC 次数 |
GC时间 | FGCT | s | Full GC 消耗时间 |
| GCT | s | 垃圾回收时间消耗 |
| YGCT | s | Young GC 消耗时间 |
内存区域占比 | S0 | % | Survivor 0区内存使用占比 |
| E | % | Eden 区内存使用占比 |
| CCS | % | Compressed class space 区内存使用占比 |
| S1 | % | Survivor 1区内存使用占比 |
| O | % | Old 区内存使用占比 |
| M | % | Metaspace 区内存使用占比 |
JVM内存 | MemHeapUsedM | MBytes | 已使用的堆内存 |
| MemNonHeapUsedM | MBytes | 已使用的堆外内存 |
| MemHeapCommittedM | MBytes | 已提交的堆内存 |
| MemNonHeapCommittedM | MBytes | 已提交的堆外内存 |
| MemHeapMaxM | MBytes | 最大堆内存 |
堆内存使用率 | MemHeapUsedRate | % | 堆内存使用率 |
JVM线程数量 | PeakThreadCount | Count | 峰值线程数 |
| ThreadCount | Count | 总线程数量 |
| DaemonThreadCount | Count | Daemon线程数量 |
CELEBORN-Worker
标题 | 指标名称 | 指标单位 | 指标含义 |
Slots allocated数量 | SlotsAllocated | Count | 过去一小时分配的插槽数 |
Reserve Slots时间 | ReserveSlotsTime_Mean | ms | 预留插槽(获取磁盘缓冲区并记录分区位置)的平均值 |
| ReserveSlotsTime_Max | ms | 预留插槽(获取磁盘缓冲区并记录分区位置)的最大值 |
Pause Push Data次数 | PausePushData | None | 因背压导致worker停止从客户端接收推送数据的次数 |
Pause Push Data And Replicate 次数 | PausePushDataAndReplicate | None | 因背压导致worker停止从客户端和其它worker(副本场景)接收推送数据的次数 |
Active Connection数量 | ActiveConnectionCount | Count | 活跃的网络连接数 |
Primary Push Data时间 | PrimaryPushDataTime_Mean | ms | 处理来自Celeborn客户端的推送数据的RPC平均时间 |
| PrimaryPushDataTime_Max | ms | 处理来自Celeborn客户端的推送数据的RPC最大时间 |
Replica Push Data时间 | ReplicaPushDataTime_Mean | ms | 处理来自Celeborn其它worker的复制数据的RPC平均时间 |
| ReplicaPushDataTime_Max | ms | 处理来自Celeborn其它worker的复制数据的RPC最大时间 |
Write Data Fail数量 | WriteDataFailCount | Count | 当前worker写入PushData或PushMergedData失败的次数 |
Replicate Data Write Fail数量 | ReplicateDataWriteFailCount | Count | 因对等节点(目标复制节点)写入失败导致复制PushData或PushMergedData失败的次数 |
Replicate Data Fail数量 | ReplicateDataFailCount | Count | 当前worker复制PushData或PushMergedData失败的次数 |
Replicate Data Timeout数量 | ReplicateDataTimeoutCount | Count | 因对等节点(目标复制节点)超时导致复制PushData或PushMergedData失败的次数 |
Replicate Data Conn Exception数量 | ReplicateDataConnectionExceptionCount | Count | 因对等节点(目标复制节点)连接异常导致复制PushData或PushMergedData失败的次数 |
Replicate Data Create Conn Fail数量 | ReplicateDataCreateConnectionFailCount | Count | 因对等节点(目标复制节点)创建连接失败导致复制PushData或PushMergedData失败的次数 |
Open Stream时间 | OpenStreamTime_Mean | ms | worker处理openStream RPC并返回StreamHandle的平均时间 |
| OpenStreamTime_Max | ms | worker处理openStream RPC并返回StreamHandle的最大时间 |
Fetch Chunk时间 | FetchChunkTime_Mean | ms | worker从reduce分区默认读取8MB块的平均时间 |
| FetchChunkTime_Max | ms | worker从reduce分区默认读取8MB块的最大时间 |
Take Buffer时间 | TakeBufferTime_Mean | ms | worker从磁盘刷写器中取出一个缓冲区的平均时间 |
| TakeBufferTime_Max | ms | worker从磁盘刷写器中取出一个缓冲区的最大时间 |
Flush Data时间 | FlushDataTime_Mean | ms | worker将一个缓冲区的内容写入存储的平均时间 |
| FlushDataTime_Max | ms | worker将一个缓冲区的内容写入存储的最大时间 |
Commit Files时间 | CommitFilesTime_Mean | ms | worker刷写指定shuffle缓冲区与关闭指定shuffle文件的平均时间 |
| CommitFilesTime_Max | ms | worker刷写指定shuffle缓冲区与关闭指定shuffle文件的最大时间 |
Sort时间 | SortTime_Mean | ms | worker对shuffle文件进行排序的平均耗时 |
| SortTime_Max | ms | worker对shuffle文件进行排序的最大耗时 |
Files数量 | SortingFiles | Count | 正在排序的shuffle文件数量 |
| SortedFiles | Count | 已排序的shuffle文件数量 |
Sort内存 | SortMemory | Bytes | 正在排序的shuffle文件所占用的内存 |
Sorted File大小 | SortedFileSize | Count | 已排序shuffle文件的总大小 |
Potential Consume Speed | PotentialConsumeSpeed | None | 拥塞控制的潜在消费速率 |
Worker Consume Speed | WorkerConsumeSpeed | None | 拥塞控制的worker消费速率 |
Used Produce Speed | UserProduceSpeed | None | 拥塞控制的用户生产速率 |
Primary Push Data Handshake时间 | PrimaryPushDataHandshakeTime_Mean | ms | 主分区握手处理平均时间 |
| PrimaryPushDataHandshakeTime_Max | ms | 主分区握手处理最大时间 |
Replica Push Data Handshake时间 | ReplicaPushDataHandshakeTime_Mean | ms | 副本分区握手处理平均时间 |
| ReplicaPushDataHandshakeTime_Max | ms | 副本分区握手处理最大时间 |
Primary Region开始时间 | PrimaryRegionStartTime_Mean | ms | 缓冲区超过高水位线触发的刷写的平均时间 |
| PrimaryRegionStartTime_Max | ms | 缓冲区超过高水位线触发的刷写的最大时间 |
Replica Region开始时间 | ReplicaRegionStartTime_Mean | ms | 处理副本分区(Region)启动请求的平均时间 |
| ReplicaRegionStartTime_Max | ms | 处理副本分区(Region)启动请求的最大时间 |
| PrimaryRegionFinishTime_Mean | ms | 处理主分区(Region)完成请求的平均时间 |
| PrimaryRegionFinishTime_Max | ms | 处理主分区(Region)完成请求的最大时间 |
| ReplicaRegionFinishTime_Mean | ms | 处理副本分区(Region)完成请求的平均时间 |
| ReplicaRegionFinishTime_Max | ms | 处理副本分区完成请求的最长耗时 |
Push Data Handshake Fail数量 | PushDataHandshakeFailCount | Count | worker在PushData握手阶段失败的次数 |
Region Start Fail数量 | RegionStartFailCount | Count | worker处理RegionStart请求失败的次数 |
| RegionFinishFailCount | Count | worker处理RegionFinish请求失败的次数 |
Active Credit Stream数量 | ActiveCreditStreamCount | Count | 正在读取Map分区数据的活跃流总数 |
Active MapPartition数量 | ActiveMapPartitionCount | Count | 活跃的Map分区读取流数量 |
Last Minute System Load | LastMinuteSystemLoad | None | 过去1分钟的系统平均负载 |
Available Processors数量 | AvailableProcessors | Count | 系统可用CPU核心数 |
Disk File数量 | diskFileCount | Count | 按用户统计的磁盘文件占用数量 |
Disk Bytes Written | diskBytesWritten | Bytes | 按用户统计的磁盘文件总大小 |
HDFS File数量 | hdfsFileCount | Count | 按用户统计的HDFS文件占用数量 |
HDFS Bytes Written | hdfsBytesWritten | Bytes | 按用户统计的HDFS文件总大小 |
Netty内存 | NettyMemory | Bytes | Celeborn worker使用的堆外内存总量 |
Disk缓存 | DiskBuffer | None | 需写入磁盘的pushData和pushMergedData占用的内存大小 |
Push Used Head内存 | push_usedHeapMemory | None | Worker 节点在执行 Push 操作 时使用的 堆内存 大小 |
Push Used Direct内存 | push_usedDirectMemory | None | Worker 节点在执行 Push 操作 时使用的 直接内存 大小 |
Fetch Used heap内存 | fetch_usedHeapMemory | None | Worker 节点在执行 Fetch 操作 时使用的 堆内存 大小 |
Fetch used Direct内存 | fetch_usedDirectMemory | None | Worker 节点在执行 Fetch 操作 时使用的 直接内存 大小 |
Replicate Used Heap内存 | replicate_usedHeapMemory | None | Worker 节点在执行 Replicate 操作 时使用的 堆内存 大小 |
Replicate Used Direct内存 | replicate_usedDirectMemory | None | Worker 节点在执行 Replicate 操作 时使用的 直接内存 大小 |
Read Buffer Allocated数量 | ReadBufferAllocatedCount | None | 已分配读缓冲区数量 |
读缓存 | BufferStreamReadBuffer | Bytes | 用于信用流(Credit Stream)读操作的缓冲区内存消耗 |
Read Buffer Dispatcher Requests | ReadBufferDispatcherRequestsLength | Count | 等待分配的读缓冲区请求队列长度 |
CPU利用率 | ProcessCpuLoad | % | CPU利用率 |
CPU累计使用时间 | ProcessCpuTime | ms | CPU 累计使用时间 |
GC次数 | YGC | Count | Young GC 次数 |
| FGC | Count | Full GC 次数 |
GC时间 | FGCT | s | Full GC 消耗时间 |
| GCT | s | 垃圾回收时间消耗 |
| YGCT | s | Young GC 消耗时间 |
内存区域占比 | S0 | % | Survivor 0区内存使用占比 |
| E | % | Eden 区内存使用占比 |
| CCS | % | Compressed class space 区内存使用占比 |
| S1 | % | Survivor 1区内存使用占比 |
| O | % | Old 区内存使用占比 |
| M | % | Metaspace 区内存使用占比 |
JVM内存 | MemHeapUsedM | MBytes | 已使用的堆内存 |
| MemNonHeapUsedM | MBytes | 已使用的堆外内存 |
| MemHeapCommittedM | MBytes | 已提交的堆内存 |
| MemNonHeapCommittedM | MBytes | 已提交的堆外内存 |
| MemHeapMaxM | MBytes | 最大堆内存 |
堆内存使用率 | MemHeapUsedRate | % | 堆内存使用率 |
JVM线程数量 | PeakThreadCount | Count | 峰值线程数 |
| ThreadCount | Count | 总线程数量 |
| DaemonThreadCount | Count | Daemon线程数量 |