操作场景
高性能计算集群实例搭载了 A100/A800/H800 GPU 并支持 NVLink & NVSwitch,需额外安装与驱动版本对应的 nvidia-fabricmanager 服务使 GPU 卡间能够互联。如果您使用该实例,请参考本文安装 nvidia-fabricmanager 服务,否则可能无法正常使用 GPU 实例。
操作步骤
本文以驱动版本 535.216.01 为例,您可以参考以下步骤进行安装,您也可以根据实际情况替换其他版本。
安装 nvidia-fabricmanager 服务
1. 使用标准登录方式登录 Linux 实例。
2. 不同操作系统版本安装方法不同,请您参考以下方式,替换对应安装包路径,执行命令进行安装。不同镜像和驱动版本匹配不同版本的安装包,更多版本选择可进入 NV 官网 查看。
说明:
NVIDIA GPU 型实例升级 GPU 驱动的同时,还需同步升级 Fabric Manager,否则无法正常使用 GPU 实例。
使用 购买页自动安装驱动 功能将自动安装 Fabric Manager。
wget https://developer.download.nvidia.cn/compute/cuda/repos/rhel8/x86_64/nvidia-fabric-manager-535.216.01-1.x86_64.rpmwget https://developer.download.nvidia.cn/compute/cuda/repos/rhel8/x86_64/nvidia-fabric-manager-devel-535.216.01-1.x86_64.rpmrpm -ivh nvidia-fabric-manager-535.216.01-1.x86_64.rpmrpm -ivh nvidia-fabric-manager-devel-535.216.01-1.x86_64.rpm
wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/nvidia-fabricmanager-535_535.216.01-1_amd64.debwget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/nvidia-fabricmanager-dev-535_535.216.01-1_amd64.debsudo dpkg -i nvidia-fabricmanager-535_535.216.01-1_amd64.debsudo dpkg -i nvidia-fabricmanager-dev-535_535.216.01-1_amd64.deb
wget https://developer.download.nvidia.cn/compute/cuda/repos/rhel7/x86_64/nvidia-fabric-manager-535.216.01-1.x86_64.rpmwget https://developer.download.nvidia.cn/compute/cuda/repos/rhel7/x86_64/nvidia-fabric-manager-devel-535.216.01-1.x86_64.rpmrpm -ivh nvidia-fabric-manager-535.216.01-1.x86_64.rpmrpm -ivh nvidia-fabric-manager-devel-535.216.01-1.x86_64.rpm
启动 nvidia-fabricmanager 服务
依次执行以下命令,启动服务。
systemctl enable nvidia-fabricmanager
systemctl start nvidia-fabricmanager
查看 nvidia-fabricmanager 服务状态
执行以下命令,查看服务状态。
systemctl status nvidia-fabricmanager
若输出信息如下,则表示服务安装成功。
