健康检查是面向智能高性能网络 IHN 提供的网络诊断工具,提供针对 GPU 服务器实例的网络链路状态、RDMA 网络配置、RDMA 网卡配置、GPU 服务器状态、NVLink 状态以及多实例一致性进行检测的工具,协助您及定位问题实例及定期巡检,保障实例正常运行。
使用场景
帮助您快速了解该功能的使用场景及价值。
场景 | 说明 |
问题排障 | 使用GPU服务器过程中遇到故障,性能不佳等问题触发的诊断需求 |
定期巡检 | 定期巡检集群内服务器的运行状态 |
使用限制
当前功能仅支持 NVIDA 部分机型使用,其他机型在逐步适配中。
仅支持运行状态中的 Linux 操作系统实例使用该功能。
待发起健康检查的服务器实例,需安装 IHN 云助手。如需安装,可 提交工单 支持。
诊断结果
诊断结果 | 结果说明 |
正常 | 全部检查结果均正常 |
低风险 | 存在低风险的异常项,不影响性能和稳定性,未来可能存在潜在风险。 |
告警 | 存在中风险的异常项,导致性能下降,不直接影响稳定性。 |
严重 | 存在高风险的异常项,需要紧急处理,否则影响性能或者训练任务。 |