有奖捉虫:办公协同&微信生态&物联网文档专题 HOT

命名空间

Namespace = QCE/TI_TRAINTASK

监控指标

训练任务实例

英文指标名
中文指标名
中文含义
单位
维度
统计粒度
Instancecpuutil
CPU 利用率
训练任务实例 CPU 利用率
%
InstanceId
60s、300s
Instancegpumemutil
GPU 显存利用率
训练任务实例 GPU 显存利用率
%
InstanceId
60s、300s
Instancegpuutil
GPU 利用率
训练任务实例 GPU 利用率
%
InstanceId
60s、300s
Instancememutil
内存利用率
训练任务实例内存利用率
%
InstanceId
60s、300s
Instancememvalue
内存使用量
训练任务实例内存使用量
MBytes
InstanceId
60s、300s
Instancegpumemvalue
显存使用量
训练任务实例显存使用量
MBytes
InstanceId
60s、300s
Fp16EngineActivity
FP16活跃时间比
训练任务实例 FP16活跃时间比
%
InstanceId
60s、300s
Fp32EngineActivity
FP32活跃时间比
训练任务实例 FP32活跃时间比
%
InstanceId
60s、300s
Fp64EngineActivity
FP64活跃时间比
训练任务实例 FP64活跃时间比
%
InstanceId
60s、300s
NvlinkBandwidth
nvlink 传输速率
训练任务实例 nvlink 传输速率
Bytes/s
InstanceId
60s、300s
PcieBandwidth
PCIe 总线传输速率
训练任务实例 PCIe 总线传输速率
Bytes/s
InstanceId
60s、300s
RdmaInpkt
RDMA 网卡入包量
训练任务实例 RDMA 网卡入包量
pps
InstanceId
60s、300s
RdmaIntraffic
RDMA 网卡接收带宽
训练任务实例 RDMA 网卡接收带宽
Mbps
InstanceId
60s、300s
RdmaOutpkt
RDMA 网卡出包量
训练任务实例 RDMA 网卡出包量
pps
InstanceId
60s、300s
RdmaOuttraffic
RDMA 网卡发送带宽
训练任务实例 RDMA 网卡发送带宽
Mbps
InstanceId
60s、300s
SmActivity
SM 活跃状态时间比
训练任务实例 SM 活跃状态时间比
%
InstanceId
60s、300s
TensorActivity
Tensor 活跃状态时间比
训练任务实例 Tensor 活跃状态时间比
%
InstanceId
60s、300s

训练任务

英文指标名
中文指标名
中文含义
单位
维度
统计粒度
Cpuutil
CPU 利用率
训练任务 CPU 利用率
%
TaskId
60s、300s
Gpumemutil
GPU 显存利用率
训练任务 GPU 显存利用率
%
TaskId
60s、300s
Gpuutil
GPU 利用率
训练任务 GPU 利用率
%
TaskId
60s、300s
Memutil
内存利用率
训练任务内存利用率
%
TaskId
60s、300s
Memvalue
内存用量
训练任务内存用量
MBytes
TaskId
60s、300s
Gpumemvalue
显存使用量
训练任务显存使用量
MBytes
TaskId
60s、300s
TaskFp16EngineActivity
FP16活跃时间比
训练任务 FP16活跃时间比
%
TaskId
60s、300s
TaskFp32EngineActivity
FP32活跃时间比
训练任务 FP32活跃时间比
%
TaskId
60s、300s
TaskFp64EngineActivity
FP64活跃时间比
训练任务 FP64活跃时间比
%
TaskId
60s、300s
TaskNvlinkBandwidth
nvlink 传输速率
训练任务 nvlink 传输速率
Bytes/s
TaskId
60s、300s
TaskPcieBandwidth
PCIe 总线传输速率
训练任务 PCIe 总线传输速率
Bytes/s
TaskId
60s、300s
TaskRdmaInpkt
RDMA 网卡入包量
训练任务 RDMA 网卡入包量
pps
TaskId
60s、300s
TaskRdmaIntraffic
RDMA 网卡接收带宽
训练任务 RDMA 网卡接收带宽
Mbps
TaskId
60s、300s
TaskRdmaOutpkt
RDMA 网卡出包量
训练任务 RDMA 网卡出包量
pps
TaskId
60s、300s
TaskRdmaOuttraffic
RDMA 网卡发送带宽
训练任务RDMA 网卡发送带宽
Mbps
TaskId
60s、300s
TaskSmActivity
SM 活跃状态时间比
训练任务SM 活跃状态时间比
%
TaskId
60s、300s
TaskTensorActivity
Tensor 活跃状态时间比
训练任务Tensor 活跃状态时间比
%
TaskId
60s、300s

训练任务实例使用的GPU卡

英文指标名
中文指标名
中文含义
单位
维度
统计粒度
GpuFp16EngineActivity
FP16活跃时间比
训练任务实例使用的 GPU 卡号(仅限 GPU 任务)FP16活跃时间比
%
taskInsGpuNum
60s、300s
GpuFp32EngineActivity
FP32活跃时间比
训练任务实例使用的 GPU 卡号(仅限 GPU 任务)FP32活跃时间比
%
taskInsGpuNum
60s、300s
GpuFp64EngineActivity
FP64活跃时间比
训练任务实例使用的 GPU 卡号(仅限 GPU 任务)FP64活跃时间比
%
taskInsGpuNum
60s、300s
GpuNvlinkBandwidth
nvlink 传输速率
训练任务实例使用的 GPU 卡号(仅限 GPU 任务)nvlink 传输速率
Bytes/s
taskInsGpuNum
60s、300s
GpuPcieBandwidth
PCIe 总线传输速率
训练任务实例使用的 GPU 卡号(仅限 GPU 任务)PCIe 总线传输速率
Bytes/s
taskInsGpuNum
60s、300s
GpuSmActivity
SM 活跃状态时间比
训练任务实例使用的 GPU 卡号(仅限 GPU 任务)SM 活跃状态时间比
%
taskInsGpuNum
60s、300s
GpuTensorActivity
Tensor 活跃状态时间比
训练任务实例使用的 GPU 卡号(仅限 GPU 任务)Tensor 活跃状态时间比
%
taskInsGpuNum
60s、300s
DcgmFiDevFbUsed
显存使用量
训练任务实例使用的 GPU 卡号(仅限 GPU 任务)显存使用量
MBytes
taskInsGpuNum
60s、300s
DcgmFiDevGpuUtil
GPU 使用率
训练任务实例使用的 GPU 卡号(仅限 GPU 任务)GPU 使用率
%
taskInsGpuNum
60s、300s
DcgmFiDevMemCopyUtil
显存使用率
训练任务实例使用的 GPU 卡号(仅限 GPU 任务)显存使用率
%
taskInsGpuNum
60s、300s

各维度对应参数总览

参数名称
维度名称
维度解释
格式
Instances.N.Dimensions.0.Name
InstanceId
训练任务实例ID
输入 String 类型维度名称:InstanceId
Instances.N.Dimensions.0.Value
InstanceId
训练任务实例ID
输入具体实例 ID,例如:train-9187850047592xxxxx-6zaq3zh9mvpc-master-0
Instances.N.Dimensions.0.Name
TaskId
训练任务ID
输入 String 类型维度名称:TaskId
Instances.N.Dimensions.0.Value
TaskId
训练任务/notebook ID
输入具体实例 ID,例如:train-9187850047592xxxxx
Instances.N.Dimensions.0.Name
taskInsGpuNum
训练任务实例使用的 GPU 卡号(仅限 GPU 任务)
输入 String 类型维度名称:taskInsGpuNum
Instances.N.Dimensions.0.Value
taskInsGpuNum
训练任务实例使用的 GPU 卡号(仅限 GPU 任务)
输入训练任务实例 ID 拼接 GPU 卡号/avg,例如:输入具体实例 ID,例如:train-9187850047592xxxxx-6zaq3zh9mvpc-master-0-0、train-9187850047592xxxxx-6zaq3zh9mvpc-master-0-avg