前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >KubeSphere 最佳实战:openEuler 22.03 LTS SP3 安装 NVIDIA 显卡驱动

KubeSphere 最佳实战:openEuler 22.03 LTS SP3 安装 NVIDIA 显卡驱动

原创
作者头像
运维有术
修改2024-05-23 17:36:55
1310
修改2024-05-23 17:36:55
举报
文章被收录于专栏:运维有术运维有术

KubeSphere 最佳实战:openEuler 22.03 LTS SP3 安装 NVIDIA 显卡驱动

2024 年云原生运维实战文档 99 篇原创计划 第 024 篇 |玩转 AIGC「2024」系列 第 005 篇

你好,欢迎来到运维有术

今天分享的内容是 KubeSphere 最佳实战「2024」 系列文档中的 openEuler 22.03 LTS SP3 安装 NVIDIA 显卡驱动

本文将详细介绍如何在操作系统 openEuler 22.03 LTS SP3 手工安装 NVIDIA 显卡驱动。

实战服务器配置(架构1:1复刻小规模生产环境,配置略有不同)

主机名

IP

CPU

内存

系统盘

数据盘

用途

ksp-control-1

192.168.9.91

4

8

40

100

KubeSphere/k8s-control-plane

ksp-control-2

192.168.9.92

4

8

40

100

KubeSphere/k8s-control-plane

ksp-control-3

192.168.9.93

4

8

40

100

KubeSphere/k8s-control-plane

ksp-worker-1

192.168.9.94

4

16

40

100

k8s-worker/CI

ksp-worker-2

192.168.9.95

4

16

40

100

k8s-worker

ksp-worker-3

192.168.9.96

4

16

40

100

k8s-worker

ksp-storage-1

192.168.9.97

4

8

40

300+

ElasticSearch/Ceph/Longhorn/NFS/

ksp-storage-2

192.168.9.98

4

8

40

300+

ElasticSearch//Ceph/Longhorn

ksp-storage-3

192.168.9.99

4

8

40

300+

ElasticSearch//Ceph/Longhorn

ksp-gpu-worker-1

192.168.9.101

4

16

40

100

k8s-worker(GPU NVIDIA Tesla M40)

ksp-gpu-worker-2

192.168.9.102

4

16

40

100

k8s-worker(GPU NVIDIA Tesla P100)

ksp-registry

192.168.9.90

4

8

40

200

Harbor 镜像仓库

ksp-gateway-1

192.168.9.103

2

4

40

自建应用服务代理网关/VIP:192.168.9.100

ksp-gateway-2

192.168.9.104

2

4

40

自建应用服务代理网关/VIP:192.168.9.100

ksp-mid

192.168.9.105

4

8

40

100

部署在 k8s 集群之外的服务节点(Gitlab 等)

合计

15

56

152

600

2000

实战环境涉及软件版本信息

  • 操作系统:openEuler 22.03 LTS SP3 x86_64
  • KubeSphere:v3.4.1
  • Kubernetes:v1.28.8
  • KubeKey: v3.1.1
  • Containerd:1.7.13
  • NVIDIA Container Toolkit:1.15
  • NVIDIA 显卡: P100 16G 和 M40 24G

1. 前置条件

1.1 操作系统初始化配置

请参考 Kubernetes 集群节点 openEuler 22.03 LTS SP3 系统初始化指南,完成操作系统初始化配置。

初始化配置指南中没有涉及操作系统升级的任务,在能联网的环境初始化系统的时候一定要升级操作系统,然后重启节点。

1.2 安装显卡驱动编译工具

代码语言:bash
复制
yum install gcc make kernel-devel

1.3 安装显卡驱动依赖包

代码语言:bash
复制
yum install vulkan-loader

可选安装项,不安装该系统包时会出现以下警告提示,但不影响安装和使用。

nvidia-installer-vulkan-loader
nvidia-installer-vulkan-loader

2. 安装 NVIDIA GPU 驱动

生产环境建议选择 .run 格式的驱动安装包。从官方NVIDIA 显卡驱动下载地址下载驱动 NVIDIA-Linux-x86_64-550.54.15.run,并上传到每个 GPU 节点。

  • 下载选项
nvidia-p100-driver-download
nvidia-p100-driver-download
  • 550 版驱动支持显卡列表
nvidia-driver-550-support-list
nvidia-driver-550-support-list

2.1 安装显卡驱动

代码语言:bash
复制
chmod u+x NVIDIA-Linux-x86_64-550.54.15.run
./NVIDIA-Linux-x86_64-550.54.15.run

初次执行,请按提示操作,然后重启服务器。

安装过程大部分截图如下:

nvidia-installer-nouveau
nvidia-installer-nouveau
nvidia-installer-nouveau-modprobe
nvidia-installer-nouveau-modprobe
nvidia-installer-nouveau-modprobe-written
nvidia-installer-nouveau-modprobe-written

选择 Abort installation,然后重启服务器。

nvidia-installer-continue
nvidia-installer-continue

服务器重启完成后,再次执行安装命令,会自动执行构建、安装的任务(截图不全)。

nvidia-installer-32bit
nvidia-installer-32bit
nvidia-installer-complete
nvidia-installer-complete

建议驱动安装完成后,再次重启服务器。

2.2 验证显卡驱动

  • 执行下面的命令
代码语言:bash
复制
nvidia-smi

Tesla M40 节点,正确执行后,输出结果如下:

代码语言:bash
复制
$ nvidia-smi
Thu May 19 08:59:57 2024
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  Tesla M40 24GB                 Off |   00000000:00:10.0 Off |                    0 |
| N/A   37C    P0             65W /  250W |       0MiB /  23040MiB |    100%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

Tesla P100 节点,正确执行后,输出结果如下:

代码语言:bash
复制
$ nvidia-smi
Thu May 19 09:19:19 2024
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  Tesla P100-PCIE-16GB           Off |   00000000:00:10.0 Off |                    0 |
| N/A   40C    P0             31W /  250W |       0MiB /  16384MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

3. 自动化 Shell 脚本

文章中所有操作步骤,已全部编排为自动化脚本,包含以下内容(因篇幅限制,不在此文档中展示):

  • Ansible 初始化 GPU 节点操作系统基础配置
  • Ansible 初始化磁盘配置
  • Ansible 安装 NVIDIA 显卡驱动依赖

运维有术星球会员请到专属代码仓库下载(价值内容,仅星球会员专享)。

以上,就是我今天分享的全部内容。下一期分享的内容还没想好,敬请期待开盲盒

如果你喜欢本文,请分享、收藏、点赞、评论! 请持续关注 @运维有术,及时收看更多好文!

免责声明:

  • 笔者水平有限,尽管经过多次验证和检查,尽力确保内容的准确性,但仍可能存在疏漏之处。敬请业界专家大佬不吝指教。
  • 本文所述内容仅通过实战环境验证测试,读者可学习、借鉴,但严禁直接用于生产环境由此引发的任何问题,作者概不负责

Get 本文实战视频(请注意,文档视频异步发行,请先关注)

欢迎加入 「知识星球|运维有术」 ,获取更多的 KubeSphere、Kubernetes、云原生运维、自动化运维、AI 大模型等实战技能。未来运维生涯始终有我坐在你的副驾

版权声明

  • 所有内容均属于原创,感谢阅读、收藏,转载请联系授权,未经授权不得转载

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • KubeSphere 最佳实战:openEuler 22.03 LTS SP3 安装 NVIDIA 显卡驱动
    • 1. 前置条件
      • 1.1 操作系统初始化配置
      • 1.2 安装显卡驱动编译工具
      • 1.3 安装显卡驱动依赖包
    • 2. 安装 NVIDIA GPU 驱动
      • 2.1 安装显卡驱动
      • 2.2 验证显卡驱动
    • 3. 自动化 Shell 脚本
    相关产品与服务
    容器服务
    腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档