有奖捉虫:办公协同&微信生态&物联网文档专题 HOT

操作场景

GPU 云服务器正常工作需提前安装正确的基础设施软件,对 NVIDIA 系列 GPU 而言,有以下两个层次的软件包需要安装:
驱动 GPU 工作的硬件驱动程序。
上层应用程序所需要的库。
若把 NVIDIA GPU 用作通用计算,则需安装 Tesla Driver + CUDA。本文介绍如何安装 Tesla Driver,如何安装 CUDA 请参见 安装 CUDA 指引
说明
为方便用户,用户可以在创建 GPU 云服务器时,在服务市场里选择预装特定版本驱动和 CUDA 的镜像。详情请参见 驱动安装方式推荐

操作步骤

Linux 驱动安装

Linux 驱动安装采用 Shell 脚本安装方式,适用于任何 Linux 发行版,包括 CentOS,Ubuntu 等。
NVIDIA Telsa GPU 的 Linux 驱动在安装过程中需要编译 kernel module,系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包,例如 kernel-devel-$(uname -r) 等。本文提供 CentOS 及 Ubuntu 系统操作步骤,请您按需选择:
CentOS
Ubuntu
1. 执行以下命令,检查当前系统中是否已安装 dkms。
rpm -qa | grep -i dkms
返回结果如下图,则表示已安装 dkms。

如未安装 dkms,则执行以下命令进行安装。
sudo yum install -y dkms
2. 登录 NVIDIA 驱动下载 或访问 http://www.nvidia.com/Download/Find.aspx
3. 根据实例操作系统及 GPU 规格,选择操作系统和安装包。GPU 规格信息请参见 实例类型
4. 单击 SEARCH 搜寻驱动,选择要下载的驱动版本。本文以 V100 为例,如下图所示:
注意
操作系统(Operating System)选择 Linux 64-bit 即表示下载 shell 安装文件。如果选择具体的发行版,则下载的文件是对应的包安装文件。



5. 选择特定的版本进入下载页面,单击 DOWNLOAD。如下图所示:



6. 
如有填写个人信息的页面可选择直接跳过
,当出现以下页面时,右键单击 AGREE&DOWNLOAD 并选择菜单中的复制链接地址。如下图所示:




7. 参见 使用标准方式登录 Linux 实例(推荐),登录 GPU 实例。您也可以根据实际操作习惯,选择其他不同的登录方式:
8. 使用 wget 命令, 粘贴 步骤6 中已获取的链接地址,下载安装包。如下图所示:



或者您可在本地系统下载 NVIDIA 安装包,再上传到 GPU 实例的服务器。
9. 执行以下命令,对安装包添加执行权限。 例如,对文件名为 NVIDIA-Linux-x86_64-418.126.02.run 添加执行权限。
chmod +x NVIDIA-Linux-x86_64-418.126.02.run
10. 依次执行以下命令,检查当前系统中是否已安装 gcc 和 kernel-devel 包。
rpm -qa | grep kernel-devel
rpm -qa | grep gcc
返回结果如下,则表示已安装 gcc 和 kernel-devel。



如未安装,则请执行以下命令进行安装。
sudo yum install -y gcc kernel-devel
注意
如升级了 kernel 版本,则需要将 kernel-devel 升级至与 kernel 相同的版本。
11. 执行以下命令,运行驱动安装程序,并按提示进行后续操作。
sudo sh NVIDIA-Linux-x86_64-418.126.02.run --disable-nouveau
12. 安装完成后,执行以下命令进行验证。
nvidia-smi
如返回信息类似下图中的 GPU 信息,则说明驱动安装成功。


说明
以下步骤适用于直通卡型(GPU 卡数 ≥ 1)Ubuntu 系统 Tesla 驱动和 GRID 驱动安装,若您使用 GRID 驱动,请参考文档申请和配置 GRID license,详情请参见 安装 NVIDIA GRID 驱动
1. 执行以下命令,并输入 root 用户密码,切换至 root 用户。
su
若您需重置 root 用户密码,请参见 Ubuntu 系统如何使用 root 用户登录实例?
2. 执行以下命令,查看当前系统中是否已安装 dkms。
dpkg -l | grep -i dkms
返回结果如下图,则表示已安装 dkms。

若返回结果为空,则表明未安装 dkms,执行以下命令进行安装。
apt-get install dkms
3. 前往 Official Drivers 页面,根据实例操作系统及 GPU 型号,按需选择 GRID 驱动类型。
4. 选择特定的版本进入下载页面,单击 DOWNLOAD。如下图所示:



5. 如有填写个人信息的页面可选择直接跳过,当出现以下页面时,右键单击 AGREE&DOWNLOAD 并选择菜单中的复制链接地址。如下图所示:


6. 参考 使用标准方式登录 Linux 实例(推荐),登录 GPU 实例。
7. 使用 wget 命令,粘贴 步骤5 中复制的链接地址,下载安装包。如下图所示:


8. 执行以下命令,修改安装包权限。请将命令中的 xxx 替换为您实际的驱动版本号。
chmod +x NVIDIA-Linux-x86_64-xxxx.run
9. 由于 NVIDIA 动的安装需要依赖 gcc 和 linux-kernel-headers,请依次执行以下命令,检查当前系统中是否已安装 gcc 和 kernel-devel 包。
dpkg -l | grep -i gcc
dpkg -l | grep -i linux-headers
返回结果如下,则表示已安装 gcc 和 kernel-devel。

若返回结果为空,则表明未安装,执行以下命令进行安装。
sudo apt-get install gcc linux-kernel-headers
10. 执行命令安装驱动程序,根据提示进行后续操作。请将命令中的 xxx 替换为您实际的驱动版本号。
sudo sh NVIDIA-Linux-x86_64-xxxx.run --ui=none --disable-nouveau --no-install-libglvnd --dkms -s
11. 安装完成后,执行以下命令进行验证。
nvidia-smi
如返回信息类似下图中的 GPU 信息,则说明驱动安装成功。



Windows 驱动安装

2. 访问 NVIDIA 驱动下载 官网。
3. 根据实例操作系统及 GPU 规格,选择操作系统和安装包。GPU 规格信息请参见 实例类型。 本文以 V100 为例,如下图所示:


4. 打开下载驱动程序所在的文件夹,双击安装文件开始安装,按照界面上的提示安装驱动程序并根据需要重启实例。 安装完成后,如需验证 GPU 是否正常工作,请查看设备管理器。

安装失败原因

Linux 系统驱动安装失败表现为 nvidia-smi 无法工作,通常原因如下:
1. 系统缺乏编译 kernel module 所需要的包,如 gcc,kernel-devel-xxx 等,导致无法编译,最终安装失败。
2. 系统里面存在多个版本的 kernel,由于 DKMS 的不正确配置,导致驱动编译为非当前版本 kernel 的 kernel module,导致 kernel module 安装失败。
3. 安装驱动后,升级了 kernel 版本导致原来的安装失效。