诊断项汇总

最近更新时间:2025-05-14 14:59:11

我的收藏
本文汇总了检测项、说明及影响。
检测类
检测项说明
异常导致的影响
网络链路状态检测
针对物理网络的连线状态、网口状态及网口流量负载状态进行检测
网络链路异常会导致 GPU 服务器性能下降
RDMA 网络配置检测
针对 RDMA 网络的 Bond、DCQCN、DSCP、PFC、RDMA IP 等配置进行检测
RDMA 网络配置缺缺失或异常,影响网络通信,造成网络拥塞,导致 GPU 服务器性能异常。
RDMA 网卡 PCI-E 配置检测
检查RDMA网卡的PCI-E的配置及运行情况
会导致GPU服务器性能下降
GPU 服务器状态检测
检测GPU的卡数、速率、驱动等指标
GPU 卡数异常、驱动做错等会导致训练任务失败
NVLINK 状态检测
NVLink 状态、初始化、P2P 状态的检测
NVLink 状态异常会导致训练任务失败或性能下降
软件版本一致性检测
针对所选择实例的软件版本进行检测,是否保持一致
多实例软件版本不一致可能导致性能下降
GPU 状态监控一致性检测
针对所选择实例的 GPU 状态进行检测,是否保持一致
多实例 GPU 状态监控不一致可能导致性能下降
NVLINK 状态监控一致性检测
针对所选择实例的 NVLink 状态进行检测,是否保持一致
多实例 NVLink 状态不一致可能导致性能下降