前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >0691-1.4.0-GPU环境下CDSW运行TensorFlow案例

0691-1.4.0-GPU环境下CDSW运行TensorFlow案例

作者头像
Fayson
发布2019-08-28 16:45:24
1.2K0
发布2019-08-28 16:45:24
举报
文章被收录于专栏:Hadoop实操Hadoop实操

作者:李继武

文档编写目的

介绍如何在CDSW中安装集成CUDA9.2版本的tensorflow模块,以及在GPU环境下运行tensorflow案例。代码参考上一篇文章《0690-TensorFlow之车牌识别案例》,CDSW的GPU的支持与CUDA编译参考之前的文章《如何在CDSW中使用GPU运行深度学习》和《0490-如何为GPU环境编译CUDA9.2的TensorFlow1.8与1.12》。

CDSW配置

要在cdsw中运用GPU,首先需要将GPU资源交给CDSW管理

1. 打开Cloudera Manager中CDSW的配置

搜索gpu,设置以下属性:

NVIDIA_GPU_ENABLE:设为TRUE,开启CDSW对GPU的支持。

NVIDIA_LIBRARY_PATH:NVIDIA驱动程序库的完整路径。

2. 重启CDSW

3. 查看CDSW的UI界面

可以看到CDSW已经可以使用GPU资源

(上图中使用0GPU2G内存2GPU开启了一个SESSION)

定制镜像

创建一个工程之后,在容器内安装自编译的tensorflow模块时,会遇到无法安装一些依赖的问题:

因此,需要定制镜像。

1. 登录CDSW平台查看使用的基础镜像名称

点击“Admin”

点击“engine”,查看基础镜像名称

上图标注部分即为CDSW的基础镜像(docker.repository.cloudera/cdsw/engine:5)由Docker的Repository和Tag组成。

2. 命令行查看CDSW基础镜像:

代码语言:javascript
复制
sudo docker images

3. 使用下面命令启动容器

代码语言:javascript
复制
sudo docker run -it --network='host' docker.repository.cloudera.com/cdsw/engine:5 /bin/bash

4. 安装模块

将tensorflow安装包及相关依赖包从宿主机中拉取到容器内:

代码语言:javascript
复制
scp -r root@ip:/root/tensorflow-1.8.0 .

查看tensorflow-1.8.0中的内容如下,包含tensorflow模块安装包及相关依赖包,以及案例中需要用到的image模块。

各依赖包的安装顺序,已经整理在了两个脚本之中,如上图中的install_tensorflow_1_8.sh以及install_image.sh中,直接运行这两个脚本即可。

代码语言:javascript
复制
sh install_tensorflow_1_8.sh
sh install_image.sh

脚本如下:

install_tensorflow_1.8.sh:

代码语言:javascript
复制
#!/bin/bash
yum -y install python-pip
rpm -ivh ./python-wheel-0.24.0-2.el7.noarch.rpm
cd html5lib-0.9999999
python setup.py install
cd ../termcolor-1.1.0
python setup.py install
cd ../gast-0.2.0
python setup.py install
cd ../
pip install pbr-5.1.1-py2.py3-none-any.whl
pip install Werkzeug-0.14.1-py2.py3-none-any.whl
pip install astor-0.7.1-py2.py3-none-any.whl
pip install enum34-1.1.6-py2-none-any.whl
cd absl-py-0.6.1
python setup.py install
cd ../
pip install backports.weakref-1.0.post1-py2.py3-none-any.whl
pip install bleach-1.5.0-py2.py3-none-any.whl
pip install funcsigs-1.0.2-py2.py3-none-any.whl
pip install futures-3.2.0-py2-none-any.whl
pip install grpcio-1.17.1-cp27-cp27mu-manylinux1_x86_64.whl
pip install Markdown-3.0.1-py2.py3-none-any.whl
pip install mock-2.0.0-py2.py3-none-any.whl
pip install numpy-1.15.4-cp27-cp27mu-manylinux1_x86_64.whl
pip install protobuf-3.6.1-cp27-cp27mu-manylinux1_x86_64.whl
pip install six-1.12.0-py2.py3-none-any.whl
pip install tensorboard-1.8.0-py2-none-any.whl
pip install tensorflow-1.8.0-cp27-none-linux_x86_64.whl

install_image.sh

代码语言:javascript
复制
#!/bin/bash
pip install Pillow-5.4.1-cp27-cp27mu-manylinux1_x86_64.whl
pip install pytz-2018.9-py2.py3-none-any.whl
pip install Django-1.11.18-py2.py3-none-any.whl
pip install image-1.5.27-py2.py3-none-any.whl

5. 导入驱动依赖库

GPU版的tensorflow在使用时需要导入驱动相关的依赖包,比如libcuda.so.1,libcusovel.so.9.2等,因此,需要将宿主机中相关的库拉取到容器当中,拉取的依赖有两个,一是/usr/local/cuda9.2/lib64,二是/usr/lib64/nvidia

先拉取/usr/local/cuda9.2

代码语言:javascript
复制
scp -r root@ip:/usr/local/cuda9.2  /usr/local

当CDSW启动容器时,容器中的LD_LIBRARY_PATH默认包含/usr/local/cuda/lib64,因此,此处做一个软连接:

代码语言:javascript
复制
ln -s /usr/local/cuda9.2  /usr/local/cuda

再将/usr/lib64/nvidia下的文件全部拉取也放在/usr/local/cuda/lib64下

代码语言:javascript
复制
scp -r root@ip:/usr/lib64/nvidia/*  /usr/local/cuda/lib64/

6. 保存镜像

此时不要退出上述打开的镜像,再开一个连接窗口,连接到宿主机,使用下面命令查看:

代码语言:javascript
复制
docker ps | more

记住这个container ID

再使用下面命令保存容器为新的镜像:

代码语言:javascript
复制
docker commit containerId repository:tag

至此,镜像已经定制完成,可在CDSW使用该镜像来启动容器了。

配置定制镜像

1. 登录CDSW平台,点击“Admin”

点击“engine”,在下图中位置添加定制的镜像

验证镜像

1. 打开一个session

点击“configure”,选择自定制的镜像:

返回上一步,选择python2,以及资源中加选2GPU。

点击“launce Session”,启动session。

2. 上传案例代码及数据集。

3. 在交互窗口使用下面命令运行案例

代码语言:javascript
复制
!python train-license-province.py train

可以看到,正常训练完成

使用下方的命令进行预测:

代码语言:javascript
复制
!python train-license-province.py predict

从上述结果可以看出,可以正常运行,并且已正常识别出GPU,从下面的GPU使用率中,可以看到tensorflow调用了GPU进行运算:

训练城市代号:

代码语言:javascript
复制
!python train-license-letters.py train

预测城市:

代码语言:javascript
复制
!python train-license-letters.py predict

训练车牌编号:

代码语言:javascript
复制
!python train-license-digits.py train

预测车牌编号:

代码语言:javascript
复制
!python train-license-digits.py predict

从上述预测结果来看,预测准确。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档