健康检查概述

最近更新时间:2025-08-26 10:34:21

我的收藏
健康检查是面向智能高性能网络 IHN 提供的网络诊断工具,提供针对 GPU 服务器实例的网络链路状态、RDMA 网络配置、RDMA 网卡配置、GPU 服务器状态、NVLink 状态以及多实例一致性进行检测的工具,协助您及定位问题实例及定期巡检,保障实例正常运行。

使用场景

帮助您快速了解该功能的使用场景及价值。
场景
说明
问题排障
使用GPU服务器过程中遇到故障,性能不佳等问题触发的诊断需求
定期巡检
定期巡检集群内服务器的运行状态

使用限制

当前功能仅支持 NVIDA 部分机型使用,其他机型在逐步适配中。
仅支持运行状态中的 Linux 操作系统实例使用该功能。
待发起健康检查的服务器实例,需安装 IHN 云助手。如需安装,可 提交工单 支持。

诊断结果

诊断结果
结果说明
正常
全部检查结果均正常
低风险
存在低风险的异常项,不影响性能和稳定性,未来可能存在潜在风险。
告警
存在中风险的异常项,导致性能下降,不直接影响稳定性。
严重
存在高风险的异常项,需要紧急处理,否则影响性能或者训练任务。