前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【TKE】GPU 节点 NVIDIA Tesla 驱动重新安装

【TKE】GPU 节点 NVIDIA Tesla 驱动重新安装

原创
作者头像
Jokey
修改2021-06-01 23:11:30
1.7K0
修改2021-06-01 23:11:30
举报
文章被收录于专栏:云原生搬运工

使用场景

默认情况下,用户在 TKE 添加 GPU 节点时,会自动预装特定版本 GPU 驱动,但是目前默认安装 GPU 驱动版本是固定的,用户还不能选择要安装的 GPU 驱动版本,当用户有其他版本的 GPU 驱动使用需求时,就需要在节点上重新安装,下面将介绍在 TKE 节点中如何重新安装 GPU 驱动程序。

操作步骤

1.卸载原驱动

先卸载原驱动,在节点上执行卸载命令:

代码语言:txt
复制
nvidia-uninstall

原驱动卸载过程如下图所示:

没有使用相关配置,所以选择不备份
没有使用相关配置,所以选择不备份

提示卸载原驱动完成即表示成功卸载:

卸载完成
卸载完成

2.重启节点

由于驱动是被编译进内核加载的,卸载完原驱动需要重启下节点,不重启会因原驱动还在加载中导致安装新驱动失败。

3.下载新驱动程序并安装

登录 NVIDIA 驱动下载 官网下载选择 linux 64 bit shell 安装文件,如下图:

下载新驱动安装文件
下载新驱动安装文件

这里我们选择安装 NVIDIA Tesla 10.2 版本驱动,最终可通过类似如下命令中的链接下载 shell 安装脚本到节点中并执行安装:

代码语言:txt
复制
wget https://us.download.nvidia.com/tesla/440.95.01/NVIDIA-Linux-x86_64-440.95.01.run
chmod +x NVIDIA-Linux-x86_64-440.95.01.run
sh NVIDIA-Linux-x86_64-440.95.01.run

新驱动安装过程如下图:

选择 YES
选择 YES

等待新驱动安装完成:

安装完成
安装完成

4.测试新驱动

  • 在节点上执行nvidia-smi查看 GPU 情况,可查看到 GPU 信息并显示驱动版本为新版本:
查看 GPU 信息
查看 GPU 信息
  • 查看 k8s 是否识别到节点 GPU 容量,执行命令:
代码语言:txt
复制
kubectl describe node <NodeName>

从 k8s 节点资源查看 GPU 资源是否和实际资源一致,如下图:

k8s 节点资源
k8s 节点资源

总结

本文简单介绍了如何在 TKE 重新安装 GPU 驱动程序,如有相关需求可按照上述操作安装。

参考资料:https://cloud.tencent.com/document/product/560/8048

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 使用场景
  • 操作步骤
    • 1.卸载原驱动
      • 2.重启节点
        • 3.下载新驱动程序并安装
          • 4.测试新驱动
          • 总结
          相关产品与服务
          GPU 云服务器
          GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档