文档中心>高性能计算集群>操作指南>检测高性能计算集群

检测高性能计算集群

最近更新时间:2024-06-26 16:42:31

我的收藏

操作场景

高性能计算集群用于大规模 AI 模型训练,需要保障硬件和 GPU 驱动、CUDA、NCCL 和 RDMA 等配置状态的可用性和一致性,高性能计算集群的自助检测功能提供集群维度的实例检测,您可以检测集群中所有实例的硬件和软件状态。
本文介绍高性能计算集群自助检测功能,以下是具体操作步骤。

自助检测

集群一致性检测

集群一致性检测功能支持诊断硬件和软件配置一致性并提供诊断报告。
说明:
功能暂时处于白名单开放,请联系您的售前经理进行试用权限开通。

启动检测

1. 登录 云服务器控制台,选择左侧导航栏中的高性能计算集群。
2. 高性能计算集群列表页面中,选择集群所在地域
3. 单击集群 ID,进入集群详情页面。

4. 进入自助检测分页,并单击集群自助检测

5. 选择本次检测的实例,单击开始检测。

说明:
实例需安装自动化助手后才可使用集群一致性检测。如未安装,可参见 安装自动化助手客户端 进行安装。
6. 等待检测完成,可查看检测结果。


查看历史报告

1. 登录 云服务器控制台,选择左侧导航栏中的高性能计算集群。
2. 高性能计算集群列表页面中,选择集群所在地域
3. 单击集群 ID,进入集群详情页面。

4. 进入自助检测分页,即可查看历史检测报告。


相关文档

可查阅 集群自助检测 了解工具的相关信息。