命名空间
Namespace = QCE/TI_TRAINTASK
监控指标
训练任务实例
英文指标名 | 中文指标名 | 中文含义 | 单位 | 维度 | 统计粒度 |
Instancecpuutil | CPU 利用率 | 训练任务实例 CPU 利用率 | % | InstanceId | 60s、300s |
Instancegpumemutil | GPU 显存利用率 | 训练任务实例 GPU 显存利用率 | % | InstanceId | 60s、300s |
Instancegpuutil | GPU 利用率 | 训练任务实例 GPU 利用率 | % | InstanceId | 60s、300s |
Instancememutil | 内存利用率 | 训练任务实例内存利用率 | % | InstanceId | 60s、300s |
Instancememvalue | 内存使用量 | 训练任务实例内存使用量 | MBytes | InstanceId | 60s、300s |
Instancegpumemvalue | 显存使用量 | 训练任务实例显存使用量 | MBytes | InstanceId | 60s、300s |
Fp16EngineActivity | FP16活跃时间比 | 训练任务实例 FP16活跃时间比 | % | InstanceId | 60s、300s |
Fp32EngineActivity | FP32活跃时间比 | 训练任务实例 FP32活跃时间比 | % | InstanceId | 60s、300s |
Fp64EngineActivity | FP64活跃时间比 | 训练任务实例 FP64活跃时间比 | % | InstanceId | 60s、300s |
NvlinkBandwidth | nvlink 传输速率 | 训练任务实例 nvlink 传输速率 | Bytes/s | InstanceId | 60s、300s |
PcieBandwidth | PCIe 总线传输速率 | 训练任务实例 PCIe 总线传输速率 | Bytes/s | InstanceId | 60s、300s |
RdmaInpkt | RDMA 网卡入包量 | 训练任务实例 RDMA 网卡入包量 | pps | InstanceId | 60s、300s |
RdmaIntraffic | RDMA 网卡接收带宽 | 训练任务实例 RDMA 网卡接收带宽 | Mbps | InstanceId | 60s、300s |
RdmaOutpkt | RDMA 网卡出包量 | 训练任务实例 RDMA 网卡出包量 | pps | InstanceId | 60s、300s |
RdmaOuttraffic | RDMA 网卡发送带宽 | 训练任务实例 RDMA 网卡发送带宽 | Mbps | InstanceId | 60s、300s |
SmActivity | SM 活跃状态时间比 | 训练任务实例 SM 活跃状态时间比 | % | InstanceId | 60s、300s |
TensorActivity | Tensor 活跃状态时间比 | 训练任务实例 Tensor 活跃状态时间比 | % | InstanceId | 60s、300s |
训练任务
英文指标名 | 中文指标名 | 中文含义 | 单位 | 维度 | 统计粒度 |
Cpuutil | CPU 利用率 | 训练任务 CPU 利用率 | % | TaskId | 60s、300s |
Gpumemutil | GPU 显存利用率 | 训练任务 GPU 显存利用率 | % | TaskId | 60s、300s |
Gpuutil | GPU 利用率 | 训练任务 GPU 利用率 | % | TaskId | 60s、300s |
Memutil | 内存利用率 | 训练任务内存利用率 | % | TaskId | 60s、300s |
Memvalue | 内存用量 | 训练任务内存用量 | MBytes | TaskId | 60s、300s |
Gpumemvalue | 显存使用量 | 训练任务显存使用量 | MBytes | TaskId | 60s、300s |
TaskFp16EngineActivity | FP16活跃时间比 | 训练任务 FP16活跃时间比 | % | TaskId | 60s、300s |
TaskFp32EngineActivity | FP32活跃时间比 | 训练任务 FP32活跃时间比 | % | TaskId | 60s、300s |
TaskFp64EngineActivity | FP64活跃时间比 | 训练任务 FP64活跃时间比 | % | TaskId | 60s、300s |
TaskNvlinkBandwidth | nvlink 传输速率 | 训练任务 nvlink 传输速率 | Bytes/s | TaskId | 60s、300s |
TaskPcieBandwidth | PCIe 总线传输速率 | 训练任务 PCIe 总线传输速率 | Bytes/s | TaskId | 60s、300s |
TaskRdmaInpkt | RDMA 网卡入包量 | 训练任务 RDMA 网卡入包量 | pps | TaskId | 60s、300s |
TaskRdmaIntraffic | RDMA 网卡接收带宽 | 训练任务 RDMA 网卡接收带宽 | Mbps | TaskId | 60s、300s |
TaskRdmaOutpkt | RDMA 网卡出包量 | 训练任务 RDMA 网卡出包量 | pps | TaskId | 60s、300s |
TaskRdmaOuttraffic | RDMA 网卡发送带宽 | 训练任务RDMA 网卡发送带宽 | Mbps | TaskId | 60s、300s |
TaskSmActivity | SM 活跃状态时间比 | 训练任务SM 活跃状态时间比 | % | TaskId | 60s、300s |
TaskTensorActivity | Tensor 活跃状态时间比 | 训练任务Tensor 活跃状态时间比 | % | TaskId | 60s、300s |
训练任务实例使用的GPU卡
英文指标名 | 中文指标名 | 中文含义 | 单位 | 维度 | 统计粒度 |
GpuFp16EngineActivity | FP16活跃时间比 | 训练任务实例使用的 GPU 卡号(仅限 GPU 任务)FP16活跃时间比 | % | taskInsGpuNum | 60s、300s |
GpuFp32EngineActivity | FP32活跃时间比 | 训练任务实例使用的 GPU 卡号(仅限 GPU 任务)FP32活跃时间比 | % | taskInsGpuNum | 60s、300s |
GpuFp64EngineActivity | FP64活跃时间比 | 训练任务实例使用的 GPU 卡号(仅限 GPU 任务)FP64活跃时间比 | % | taskInsGpuNum | 60s、300s |
GpuNvlinkBandwidth | nvlink 传输速率 | 训练任务实例使用的 GPU 卡号(仅限 GPU 任务)nvlink 传输速率 | Bytes/s | taskInsGpuNum | 60s、300s |
GpuPcieBandwidth | PCIe 总线传输速率 | 训练任务实例使用的 GPU 卡号(仅限 GPU 任务)PCIe 总线传输速率 | Bytes/s | taskInsGpuNum | 60s、300s |
GpuSmActivity | SM 活跃状态时间比 | 训练任务实例使用的 GPU 卡号(仅限 GPU 任务)SM 活跃状态时间比 | % | taskInsGpuNum | 60s、300s |
GpuTensorActivity | Tensor 活跃状态时间比 | 训练任务实例使用的 GPU 卡号(仅限 GPU 任务)Tensor 活跃状态时间比 | % | taskInsGpuNum | 60s、300s |
DcgmFiDevFbUsed | 显存使用量 | 训练任务实例使用的 GPU 卡号(仅限 GPU 任务)显存使用量 | MBytes | taskInsGpuNum | 60s、300s |
DcgmFiDevGpuUtil | GPU 使用率 | 训练任务实例使用的 GPU 卡号(仅限 GPU 任务)GPU 使用率 | % | taskInsGpuNum | 60s、300s |
DcgmFiDevMemCopyUtil | 显存使用率 | 训练任务实例使用的 GPU 卡号(仅限 GPU 任务)显存使用率 | % | taskInsGpuNum | 60s、300s |
各维度对应参数总览
参数名称 | 维度名称 | 维度解释 | 格式 |
Instances.N.Dimensions.0.Name | InstanceId | 训练任务实例ID | 输入 String 类型维度名称:InstanceId |
Instances.N.Dimensions.0.Value | InstanceId | 训练任务实例ID | 输入具体实例 ID,例如:train-9187850047592xxxxx-6zaq3zh9mvpc-master-0 |
Instances.N.Dimensions.0.Name | TaskId | 训练任务ID | 输入 String 类型维度名称:TaskId |
Instances.N.Dimensions.0.Value | TaskId | 训练任务/notebook ID | 输入具体实例 ID,例如:train-9187850047592xxxxx |
Instances.N.Dimensions.0.Name | taskInsGpuNum | 训练任务实例使用的 GPU 卡号(仅限 GPU 任务) | 输入 String 类型维度名称:taskInsGpuNum |
Instances.N.Dimensions.0.Value | taskInsGpuNum | 训练任务实例使用的 GPU 卡号(仅限 GPU 任务) | 输入训练任务实例 ID 拼接 GPU 卡号/avg,例如:输入具体实例 ID,例如:train-9187850047592xxxxx-6zaq3zh9mvpc-master-0-0、train-9187850047592xxxxx-6zaq3zh9mvpc-master-0-avg |