集群自助检测

最近更新时间:2024-06-26 16:41:01

我的收藏

概述

高性能计算集群的自助检测功能提供集群维度的实例检测,您可以检测集群中所有实例的硬件和软件状态。您可通过该功能及时发现并解决集群实例的相关问题。

操作场景

以下两种场景推荐使用集群自助检测:
集群故障排查:在日常运维过程中,您可以使用集群自助检测功能,检测集群中所有实例的硬件和软件状态,并根据相应建议对异常情况进行处理。
大规模 AI 模型训练环境检测:集群训练需要保障硬件和 GPU 驱动、CUDA、NCCL 和 RDMA 等配置状态的可用性和一致性,自助检测功能提供集群维度的实例检测,保障训练正常运行。

检测项说明

集群一致性检测项目说明如下:

相关操作

您可参见 检测高性能计算集群 开始集群自助检测,或查看历史检测报告。