操作场景
高性能计算集群用于大规模 AI 模型训练,需要保障硬件和 GPU 驱动、CUDA、NCCL 和 RDMA 等配置状态的可用性和一致性,高性能计算集群的自助检测功能提供集群维度的实例检测,您可以检测集群中所有实例的硬件和软件状态。
本文介绍高性能计算集群自助检测功能,以下是具体操作步骤。
自助检测
集群一致性检测
集群一致性检测功能支持诊断硬件和软件配置一致性并提供诊断报告。
说明:
功能暂时处于白名单开放,请联系您的售前经理进行试用权限开通。
启动检测
1. 登录 云服务器控制台,选择左侧导航栏中的高性能计算集群。
2. 在高性能计算集群列表页面中,选择集群所在地域。
3. 单击集群 ID,进入集群详情页面。
![](https://qcloudimg.tencent-cloud.cn/image/document/6f400491ccc1680c5f4ab879ed94a47d.png)
4. 进入自助检测分页,并单击集群自助检测。
![](https://qcloudimg.tencent-cloud.cn/image/document/37aad12d2d5432150db0eeb017a75098.png)
5. 选择本次检测的实例,单击开始检测。
![](https://qcloudimg.tencent-cloud.cn/image/document/64af21dc046eacd7d6b87739a495ae2b.png)
说明:
6. 等待检测完成,可查看检测结果。
![](https://qcloudimg.tencent-cloud.cn/image/document/5b00b9a919f96f841b193a83cf59fb1a.png)
查看历史报告
1. 登录 云服务器控制台,选择左侧导航栏中的高性能计算集群。
2. 在高性能计算集群列表页面中,选择集群所在地域。
3. 单击集群 ID,进入集群详情页面。
![](https://qcloudimg.tencent-cloud.cn/image/document/631cdae3b7e654edc0b197b7930d20bc.png)
4. 进入自助检测分页,即可查看历史检测报告。
![](https://qcloudimg.tencent-cloud.cn/image/document/562e02afb6f7a28398f9d52f1ee76194.png)
相关文档