前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【GPU 环境快捷部署】深度学习环境配置,一行命令搞定!

【GPU 环境快捷部署】深度学习环境配置,一行命令搞定!

原创
作者头像
露露露大文
修改2023-03-03 16:05:55
6.6K2
修改2023-03-03 16:05:55
举报
文章被收录于专栏:GPU LabGPU Lab

功能简介

云端使用的GPU云服务器,深度学习环境包括GPU驱动、CUDA、cuDNN和相关的AI框架等,在活动页购买的机器,腾讯云提供以下两种方式部署,您可以根据需要选择:

方式

创建后环境

可使用脚本部署的GPU环境/AI环境

执行命令

活动页购买时默认安装GPU驱动

操作系统:Ubuntu 18.04,Cent OS 7.5,Cent OS 7.6 默认配置:CUDA11.2.2 + cuDNN8.2.1 + GPU驱动版本 460.106.00

【AI环境】tf2.8.0:TensorFlow 2.8.0 + Miniconda + OpenCV 4 + Python 3.9.12

wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/gpu_auto_install.sh && wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/tf2.8.0.txt && sudo bash ./gpu_auto_install.sh install --config_file=./tf2.8.0.txt && source /etc/*bashrc && source ${HOME}/.bashrc

【AI环境】pt1.9.1:Pytorch 1.9.1 + torchvision0.10.0 + Miniconda + OpenCV 4 + Python 3.8

wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/gpu_auto_install.sh && wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/pt1.9.1.txt && sudo bash ./gpu_auto_install.sh install --config_file=./pt1.9.1.txt && source /etc/*bashrc && source ${HOME}/.bashrc

重装系统后登录机器使用环境部署脚本安装

操作系统:Ubuntu 18.04,其他OS暂未验证 默认配置:无,可使用脚本部署安装

【AI环境】tf2.8.0_driver460_cuda11.2.2:TensorFlow 2.8.0 + Miniconda + OpenCV 4 + Python 3.9.12 + CUDA11.2.2 + cuDNN8.2.1 + GPU驱动版本 460.106.00

wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/gpu_auto_install.sh && wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/tf2.8.0_driver460_cuda11.2.2.txt && sudo bash ./gpu_auto_install.sh install --config_file=./tf2.8.0_driver460_cuda11.2.2.txt && source /etc/*bashrc && source ${HOME}/.bashrc

【AI环境】pt1.9.1_driver470_cuda11.4.3:Pytorch 1.9.1 + torchvision0.10.0 + Miniconda + OpenCV 4 + Python 3.8 + CUDA11.2.2 + cuDNN8.2.1 + GPU驱动版本 460.106.00

wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/gpu_auto_install.sh && wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/pt1.9.1_driver470_cuda11.4.3.txt && sudo bash ./gpu_auto_install.sh install --config_file=./pt1.9.1_driver470_cuda11.4.3.txt && source /etc/*bashrc && source ${HOME}/.bashrc

【GPU环境】driver460_cuda11.2.2:CUDA11.2.2 + cuDNN8.2.1 + GPU驱动版本 460.106.00

wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/gpu_auto_install.sh && wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/driver460_cuda11.2.2.txt && sudo bash ./gpu_auto_install.sh install --config_file=./driver460_cuda11.2.2.txt && source /etc/*bashrc && source ${HOME}/.bashrc

功能使用

活动页自动安装GPU驱动

活动页链接:https://cloud.tencent.com/act/pro/gpu-study 1、在活动页选择Linux镜像,会出现如下字样,支持GPU环境自动安装

*您需要等待GPU驱动、CUDA、cuDNN都安装完成后再执行TensorFlow和Pytorch AI环境部署脚本,大约耗时15分钟,AI环境将安装在Miniconda中。

在活动页购买时,Linux系统会默认安装相应版本GPU驱动、CUDA、cuDNN
在活动页购买时,Linux系统会默认安装相应版本GPU驱动、CUDA、cuDNN

2、设置安全组策略,放通8888端口

(1)进入云服务器控制台,点击“安全组”-“规则预览”-“编辑规则”

编辑实例绑定的安全组规则
编辑实例绑定的安全组规则

(2)需要在“入站规则”和“出站规则”都添加8888端口放通策略

分别设置“入站规则”和“出站规则”
分别设置“入站规则”和“出站规则”

(3)分别在“入站规则”和“出站规则”栏下点击“添加规则”,按照下图进行配置

完成8888端口放通
完成8888端口放通

3、登录机器后,大约需要10~15分钟进行安装,您可以用以下命令查看当前安装进程

代码语言:javascript
复制
ps aux | grep -i install

安装顺序为(1)GPU驱动;(2)CUDA;(3)cuDNN

GPU驱动正在安装的进程
GPU驱动正在安装的进程
CUDA正在安装的进程
CUDA正在安装的进程
安装完毕后进程中没有NVIDIA-、cuda-、cudnn-等
安装完毕后进程中没有NVIDIA-、cuda-、cudnn-等

4、验证GPU驱动安装成功

代码语言:javascript
复制
nvidia-smi
GPU 驱动安装成功
GPU 驱动安装成功

5、验证CUDA 安装成功

代码语言:javascript
复制
cat  /usr/local/cuda/version.txt
输出CUDA版本号
输出CUDA版本号

6、验证cuDNN安装成功

代码语言:javascript
复制
#使用如下命令找到cudnn_version.h路径
cat /usr/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
#修改下述命令路径后可查看cuDNN版本
cat /usr/local/cuda-10.2/targets/x86_64-linux/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
cuDNN 版本为8.2.1
cuDNN 版本为8.2.1

(可选)7、使用脚本部署Miniconda AI环境

如果您需要 TensorFlow 2.8.0,登录子机执行下列命令:

代码语言:javascript
复制
wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/gpu_auto_install.sh && wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/tf2.8.0.txt && sudo bash ./gpu_auto_install.sh install --config_file=./tf2.8.0.txt  && source /etc/bash.bashrc && source ${HOME}/.bashrc

如果您需要 Pytorch 1.9.1 ,登录子机执行下列命令:

代码语言:javascript
复制
wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/gpu_auto_install.sh && wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/pt1.9.1.txt && sudo bash ./gpu_auto_install.sh install --config_file=./pt1.9.1.txt  && source /etc/bash.bashrc && source ${HOME}/.bashrc

安装完成后可以看到JupyterNotebook访问链接,复制链接即可访问:

可以使用这个链接访问JupyterNotebook
可以使用这个链接访问JupyterNotebook

【说明】

*如果重启,token会更新,可使用jupyter notebook list查看token。

*如果希望使用密码登录jupyter notebook,可按如下步骤执行:

(1)执行sudo jupyter notebook password更改密码;

(2)执行sudo systemctl restart jupyter.service 重启jupyter notebook服务。

重装系统后使用环境部署脚本安装

1、进入控制台,重装系统

进入控制台,切换在活动页购买的可用区,找到实例列表->更多-> 重装系统:

实例列表->更多-> 重装系
实例列表->更多-> 重装系

2、选择重装的操作系统为Ubuntu 18.04

AI环境配置脚本目前只验证Ubuntu 18.04
AI环境配置脚本目前只验证Ubuntu 18.04

3、等待重装系统完成,大约耗时五分钟

4、登陆机器,执行部署脚本,执行后会开始AI环境的安装,耗时大约10~15分钟

可根据文章开头的表格选择您环境部署需要的命令。

代码语言:javascript
复制
wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/gpu_auto_install.sh && wget https://gpu-related-scripts-1251783334.cos.ap-guangzhou.myqcloud.com/gpu-auto-install/tf2.8.0_driver460_cuda11.2.2.txt && sudo bash ./gpu_auto_install.sh install --config_file=./tf2.8.0_driver460_cuda11.2.2.txt  && source /etc/bash.bashrc && source ${HOME}/.bashrc

5、程序结束后会返回Jupyter Notebook的访问地址,您可以根据需要选择本地或者远程访问

请注意Jupyter Notebook链接的保密,使用此链接可直接使用您的算力资源
请注意Jupyter Notebook链接的保密,使用此链接可直接使用您的算力资源

6、如果您在使用过程中遇到问题,可以扫码加入微信群反馈

GPU 实验室用户交流群
GPU 实验室用户交流群

GPU 课程学习

在GPU服务器上搭建深度学习开发基础环境

- 课程介绍:https://cloud.tencent.com/edu/learning/quick-play/3648-63019

- GPU驱动确认:https://cloud.tencent.com/edu/learning/quick-play/3648-63020

- 常见深度学习框架安装:https://cloud.tencent.com/edu/learning/quick-play/3648-63021

- 开发环境和GPU调度确认:https://cloud.tencent.com/edu/learning/quick-play/3648-63022

- 课程总结:https://cloud.tencent.com/edu/learning/quick-play/3648-63023

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 功能简介
  • 功能使用
    • 活动页自动安装GPU驱动
      • 重装系统后使用环境部署脚本安装
      • GPU 课程学习
      相关产品与服务
      GPU 云服务器
      GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档