集群自助检测

最近更新时间:2025-01-06 10:56:32

我的收藏

概述

高性能计算集群的自助检测(即集群一致性检测)功能提供集群维度的实例检测,您可以检测集群中所有实例的硬件和软件状态。您可通过该功能及时发现并解决集群实例的相关问题。

操作场景

以下两种场景推荐使用集群自助检测:
集群故障排查:在日常运维过程中,您可以使用集群自助检测功能,检测集群中所有实例的硬件和软件状态,并根据相应建议对异常情况进行处理。
大规模 AI 模型训练环境检测:集群训练需要保障硬件、GPU 驱动、CUDA、NCCL 和 RDMA 等配置状态的可用性和一致性,自助检测功能提供集群维度的实例检测能力,保障训练正常运行。

检测项说明

集群自助检测功能支持诊断硬件和软件配置的一致性并提供诊断报告。

前提条件

实例需安装自动化助手后才可以使用集群自助检测能力。如未安装,可参见 安装自动化助手客户端 进行安装。

相关操作

集群自助检测功能支持诊断硬件和软件配置一致性并提供诊断报告。

启动检测

1. 登录 云服务器控制台,在左侧导航栏选择高性能计算集群。
2. 高性能计算集群列表页面中,选择集群所在地域
3. 单击集群 ID,进入集群详情页面。



4. 自助检测页签,单击集群自助检测



5. 选择本次检测的实例,单击开始检测。



开始检测后,需要稍等几分钟。



检测完成,页面会显示检测结果。




查看历史报告

1. 登录 云服务器控制台,在左侧导航栏选择高性能计算集群。
2. 高性能计算集群列表页面中,选择集群所在地域
3. 单击集群 ID,进入集群详情页面。



4. 单击查看报告,即可查看历史检测报告。