CELEBORN 监控指标

最近更新时间:2025-10-15 11:55:02

我的收藏

CELEBORN-Master

标题
指标名称
指标单位
指标含义
Woker数量
WorkerCount
Count
可注册shuffle的worker数量
ExcludedWorkerCount
Count
排除列表中的worker数量
LostWorkerCount
Count
丢失的worker数量
Registere shuffle数量
RegisteredShuffleCount
Count
已注册的shuffle数量
Master状态
IsActiveMaster
None
当前主节点是否处于活跃状态
Estimated Shuffle Partition大小
PartitionSize
Bytes
估计的shuffle分区大小
Handle RequestSlots Request时间
OfferSlotsTime_Mean
ms
主节点在注册shuffle时处理RequestSlots请求的平均时间
OfferSlotsTime_Max
ms
主节点在注册shuffle时处理RequestSlots请求的最大时间
Last Minute System Load
LastMinuteSystemLoad
None
上一分钟的平均系统负载
Available Processors数量
AvailableProcessors
Count
系统可用的cpu数量
CPU利用率
ProcessCpuLoad
%
CPU利用率
CPU累计使用时间
ProcessCpuTime
ms
CPU 累计使用时间
GC次数
YGC
Count
Young GC 次数
FGC
Count
Full GC 次数
GC时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
JVM内存
MemHeapUsedM
MBytes
已使用的堆内存
MemNonHeapUsedM
MBytes
已使用的堆外内存
MemHeapCommittedM
MBytes
已提交的堆内存
MemNonHeapCommittedM
MBytes
已提交的堆外内存
MemHeapMaxM
MBytes
最大堆内存
堆内存使用率
MemHeapUsedRate
%
堆内存使用率
JVM线程数量
PeakThreadCount
Count
峰值线程数
ThreadCount
Count
总线程数量
DaemonThreadCount
Count
Daemon线程数量


CELEBORN-Worker

标题
指标名称
指标单位
指标含义
Slots allocated数量
SlotsAllocated
Count
过去一小时分配的插槽数
Reserve Slots时间
ReserveSlotsTime_Mean
ms
预留插槽(获取磁盘缓冲区并记录分区位置)的平均值
ReserveSlotsTime_Max
ms
预留插槽(获取磁盘缓冲区并记录分区位置)的最大值
Pause Push Data次数
PausePushData
None
因背压导致worker停止从客户端接收推送数据的次数
Pause Push Data And Replicate 次数
PausePushDataAndReplicate
None
因背压导致worker停止从客户端和其它worker(副本场景)接收推送数据的次数
Active Connection数量
ActiveConnectionCount
Count
活跃的网络连接数
Primary Push Data时间
PrimaryPushDataTime_Mean
ms
处理来自Celeborn客户端的推送数据的RPC平均时间
PrimaryPushDataTime_Max
ms
处理来自Celeborn客户端的推送数据的RPC最大时间
Replica Push Data时间
ReplicaPushDataTime_Mean
ms
处理来自Celeborn其它worker的复制数据的RPC平均时间
ReplicaPushDataTime_Max
ms
处理来自Celeborn其它worker的复制数据的RPC最大时间
Write Data Fail数量
WriteDataFailCount
Count
当前worker写入PushData或PushMergedData失败的次数
Replicate Data Write Fail数量
ReplicateDataWriteFailCount
Count
因对等节点(目标复制节点)写入失败导致复制PushData或PushMergedData失败的次数
Replicate Data Fail数量
ReplicateDataFailCount
Count
当前worker复制PushData或PushMergedData失败的次数
Replicate Data Timeout数量
ReplicateDataTimeoutCount
Count
因对等节点(目标复制节点)超时导致复制PushData或PushMergedData失败的次数
Replicate Data Conn Exception数量
ReplicateDataConnectionExceptionCount
Count
因对等节点(目标复制节点)连接异常导致复制PushData或PushMergedData失败的次数
Replicate Data Create Conn Fail数量
ReplicateDataCreateConnectionFailCount
Count
因对等节点(目标复制节点)创建连接失败导致复制PushData或PushMergedData失败的次数
Open Stream时间
OpenStreamTime_Mean
ms
worker处理openStream RPC并返回StreamHandle的平均时间
OpenStreamTime_Max
ms
worker处理openStream RPC并返回StreamHandle的最大时间
Fetch Chunk时间
FetchChunkTime_Mean
ms
worker从reduce分区默认读取8MB块的平均时间
FetchChunkTime_Max
ms
worker从reduce分区默认读取8MB块的最大时间
Take Buffer时间
TakeBufferTime_Mean
ms
worker从磁盘刷写器中取出一个缓冲区的平均时间
TakeBufferTime_Max
ms
worker从磁盘刷写器中取出一个缓冲区的最大时间
Flush Data时间
FlushDataTime_Mean
ms
worker将一个缓冲区的内容写入存储的平均时间
FlushDataTime_Max
ms
worker将一个缓冲区的内容写入存储的最大时间
Commit Files时间
CommitFilesTime_Mean
ms
worker刷写指定shuffle缓冲区与关闭指定shuffle文件的平均时间
CommitFilesTime_Max
ms
worker刷写指定shuffle缓冲区与关闭指定shuffle文件的最大时间
Sort时间
SortTime_Mean
ms
worker对shuffle文件进行排序的平均耗时
SortTime_Max
ms
worker对shuffle文件进行排序的最大耗时
Files数量
SortingFiles
Count
正在排序的shuffle文件数量
SortedFiles
Count
已排序的shuffle文件数量
Sort内存
SortMemory
Bytes
正在排序的shuffle文件所占用的内存
Sorted File大小
SortedFileSize
Count
已排序shuffle文件的总大小
Potential Consume Speed
PotentialConsumeSpeed
None
拥塞控制的潜在消费速率
Worker Consume Speed
WorkerConsumeSpeed
None
拥塞控制的worker消费速率
Used Produce Speed
UserProduceSpeed
None
拥塞控制的用户生产速率
Primary Push Data Handshake时间
PrimaryPushDataHandshakeTime_Mean
ms
主分区握手处理平均时间
PrimaryPushDataHandshakeTime_Max
ms
主分区握手处理最大时间
Replica Push Data Handshake时间
ReplicaPushDataHandshakeTime_Mean
ms
​副本分区握手处理平均时间
ReplicaPushDataHandshakeTime_Max
ms
副本分区握手处理最大时间
Primary Region开始时间
PrimaryRegionStartTime_Mean
ms
缓冲区超过高水位线触发的刷写的平均时间
PrimaryRegionStartTime_Max
ms
缓冲区超过高水位线触发的刷写的最大时间
Replica Region开始时间
ReplicaRegionStartTime_Mean
ms
处理副本分区(Region)启动请求的平均时间
ReplicaRegionStartTime_Max
ms
处理副本分区(Region)启动请求的最大时间
PrimaryRegionFinishTime_Mean
ms
处理主分区(Region)完成请求的平均时间
PrimaryRegionFinishTime_Max
ms
处理主分区(Region)完成请求的最大时间
ReplicaRegionFinishTime_Mean
ms
处理副本分区(Region)完成请求的平均时间
ReplicaRegionFinishTime_Max
ms
处理副本分区完成请求的最长耗时
Push Data Handshake Fail数量
PushDataHandshakeFailCount
Count
worker在PushData握手阶段失败的次数
Region Start Fail数量
RegionStartFailCount
Count
worker处理RegionStart请求失败的次数
RegionFinishFailCount
Count
worker处理RegionFinish请求失败的次数
Active Credit Stream数量
ActiveCreditStreamCount
Count
正在读取Map分区数据的活跃流总数
Active MapPartition数量
ActiveMapPartitionCount
Count
活跃的Map分区读取流数量
Last Minute System Load
LastMinuteSystemLoad
None
过去1分钟的系统平均负载
Available Processors数量
AvailableProcessors
Count
系统可用CPU核心数
Disk File数量
diskFileCount
Count
按用户统计的磁盘文件占用数量
Disk Bytes Written
diskBytesWritten
Bytes
按用户统计的磁盘文件总大小
HDFS File数量
hdfsFileCount
Count
按用户统计的HDFS文件占用数量
HDFS Bytes Written
hdfsBytesWritten
Bytes
按用户统计的HDFS文件总大小
Netty内存
NettyMemory
Bytes
Celeborn worker使用的堆外内存总量
Disk缓存
DiskBuffer
None
需写入磁盘的pushData和pushMergedData占用的内存大小
Push Used Head内存
push_usedHeapMemory
None
​Worker 节点在执行 ​Push 操作 时使用的 ​堆内存 大小
Push Used Direct内存
push_usedDirectMemory
None
Worker 节点在执行 ​Push 操作 时使用的 ​直接内存 大小
Fetch Used heap内存
fetch_usedHeapMemory
None
Worker 节点在执行 ​Fetch 操作 时使用的 ​堆内存 大小
Fetch used Direct内存
fetch_usedDirectMemory
None
Worker 节点在执行 ​Fetch 操作 时使用的 ​直接内存 大小
Replicate Used Heap内存
replicate_usedHeapMemory
None
Worker 节点在执行 ​Replicate 操作 时使用的 ​堆内存 大小
Replicate Used Direct内存
replicate_usedDirectMemory
None
Worker 节点在执行 ​Replicate 操作 时使用的 ​直接内存 大小
Read Buffer Allocated数量
ReadBufferAllocatedCount
None
​已分配读缓冲区数量
读缓存
BufferStreamReadBuffer
Bytes
用于信用流(Credit Stream)读操作的缓冲区内存消耗
Read Buffer Dispatcher Requests
ReadBufferDispatcherRequestsLength
Count
等待分配的读缓冲区请求队列长度
CPU利用率
ProcessCpuLoad
%
CPU利用率
CPU累计使用时间
ProcessCpuTime
ms
CPU 累计使用时间
GC次数
YGC
Count
Young GC 次数
FGC
Count
Full GC 次数
GC时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
JVM内存
MemHeapUsedM
MBytes
已使用的堆内存
MemNonHeapUsedM
MBytes
已使用的堆外内存
MemHeapCommittedM
MBytes
已提交的堆内存
MemNonHeapCommittedM
MBytes
已提交的堆外内存
MemHeapMaxM
MBytes
最大堆内存
堆内存使用率
MemHeapUsedRate
%
堆内存使用率
JVM线程数量
PeakThreadCount
Count
峰值线程数
ThreadCount
Count
总线程数量
DaemonThreadCount
Count
Daemon线程数量