本文汇总了检测项、说明及影响。
检测类 | 检测项说明 | 异常导致的影响 |
网络链路状态检测 | 针对物理网络的连线状态、网口状态及网口流量负载状态进行检测 | 网络链路异常会导致 GPU 服务器性能下降 |
| | |
| | |
| | |
| | |
| | |
| | |
RDMA 网络配置检测 | 针对 RDMA 网络的 Bond、DCQCN、DSCP、PFC、RDMA IP 等配置进行检测 | RDMA 网络配置缺缺失或异常,影响网络通信,造成网络拥塞,导致 GPU 服务器性能异常。 |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
RDMA 网卡 PCI-E 配置检测 | 检查RDMA网卡的PCI-E的配置及运行情况 | 会导致GPU服务器性能下降 |
GPU 服务器状态检测 | 检测GPU的卡数、速率、驱动等指标 | GPU 卡数异常、驱动做错等会导致训练任务失败 |
| | |
| | |
| | |
| | |
| | |
| | |
NVLINK 状态检测 | NVLink 状态、初始化、P2P 状态的检测 | NVLink 状态异常会导致训练任务失败或性能下降 |
| | |
| | |
软件版本一致性检测 | 针对所选择实例的软件版本进行检测,是否保持一致 | 多实例软件版本不一致可能导致性能下降 |
| | |
| | |
| | |
| | |
GPU 状态监控一致性检测 | 针对所选择实例的 GPU 状态进行检测,是否保持一致 | 多实例 GPU 状态监控不一致可能导致性能下降 |
| | |
| | |
| | |
| | |
| | |
| | |
NVLINK 状态监控一致性检测 | 针对所选择实例的 NVLink 状态进行检测,是否保持一致 | 多实例 NVLink 状态不一致可能导致性能下降 |