前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯云--GPU训练cifar10

腾讯云--GPU训练cifar10

作者头像
birdskyws
发布2019-04-23 17:20:55
6.1K0
发布2019-04-23 17:20:55
举报
文章被收录于专栏:一英里广度一英寸深度的学习

深度学习中,很多图像任务需要构建较大的模型,要训练较大的模型,就需要与之对应的数据集。 这样的训练任务,往往要花费很长时间。作者在训练cifar10任务时,用了近40个小时。在更大的任务中,用CPU做训练可能要100~200个小时。 很多深度学习框架,都支持GPU,可以通过租用GPU云服务器完成训练。

1. 腾讯云

腾讯云GPU服务器。

1.1 数量和机型比较

腾讯云比阿里云的GPU服务器更多一些,在阿里云上有时会出现没有GPU服务器或者售罄。

1.2 操作系统

阿里云提供了AI镜像,预装了GPU驱动和Tensorflow。而腾讯云只提供了安装GPU驱动的镜像,需要自己安装tensorflow-gpu。

1.3 服务

阿里云提供了更多组件。笔者利用阿里云OSS服务,下传数据和上传训练模型。

1.4 价格

性能、价格方面没有差别。

2. 阿里云GPU服务器

2.1 GPU 类型

P4 P10 M40 V100

2.2 阿里镜像

名称:阿里AI云加速镜像CentOS7(阿里AI云加速镜像,预装CUDA、TensorFlow及阿里云统一分布式加速框架Perseus。)

代码语言:javascript
复制
CUDA:9.0.176
GPU Driver:384.111
CUDNN:v7.3.1
NCCL:2.3.7
Open MPI:3.0.0
TensorFlow:1.12.0
Horovod:0.15.2
Perseus:0.9.3

https://market.aliyun.com/products/57742013/cmjj032323.html?spm=5176.204674.1085795.1.7db83eadydxtBE

3.腾讯云GPU

3.1 机型

3.2 镜像

腾讯云容器服务镜像Ubuntu 16.04 64位 GPU 内核4.4.104 操作系统:Ubuntu Server 16.04.1 LTS 64位

集成软件:cloud-init-17.1, nvidia-driver 410, cuda 10 https://market.cloud.tencent.com/products/8847?productId=8847&_ga=1.128449422.309446823.1527128175

4.安装tensorflow-gpu

基于腾讯镜像,阿里镜像已经安装好tensorflow环境。

4.1 查看GPU驱动

lsmod |grep nvidia GPU 性能监测 watch -n 3 nvidia-smi

4.2 安装Minconda

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-4.5.1-Linux-x86_64.sh 查看版本python 3.6.8。

代码语言:javascript
复制
conda install tensorflow-gpu
conda install keras

tensorflow 1.13.1 keras 2.2.4

5.keras 训练cifar10

github下载keras文件夹。 运行 python cifar10_cnn.py steps_per_epoch错误,添加step_per_epoch参数。

代码语言:javascript
复制
    model.fit_generator(datagen.flow(x_train, y_train,batch_size=batch_size),
                        epochs=epochs,
                        steps_per_epoch=2000,
                        validation_data=(x_test, y_test),
                        workers=4)
  • P4运行结果
  • V100
  • I7

6.多显卡

在没有额外配置的情况下,只有第一块显卡进行运算。

7 不同显卡

虽然阿里官方给出了不同显卡计算能力的差别,实际运行P4和V100的性能差别不大。

8.CUDA driver version is insufficient for CUDA runtime version

GPU 安装检测 https://cloud.tencent.com/document/product/560/8293 GPU 安装冲突 https://www.cnblogs.com/liaohuiqiang/archive/2018/10/15/9791365.html

CUDNN 检查版本 https://blog.csdn.net/baidu_32936911/article/details/79774289

腾讯云 镜像 https://cloud.tencent.com/document/product/560/30129

python安装的cudatoolkit和cudnn程序包版本是:9.2 3.nvidia 驱动和cuda runtime 版本对应关系 运行时版本 驱动版本 CUDA 9.1 387.xx CUDA 9.0 384.xx CUDA 8.0 375.xx (GA2) CUDA 8.0 367.4x CUDA 7.5 352.xx CUDA 7.0 346.xx CUDA 6.5 340.xx CUDA 6.0 331.xx CUDA 5.5 319.xx CUDA 5.0 304.xx CUDA 4.2 295.41 CUDA 4.1 285.05.33 CUDA 4.0 270.41.19 CUDA 3.2 260.19.26 CUDA 3.1 256.40 CUDA 3.0 195.36.15 4.解决方案 从驱动和运行时的版本对应关系来看,版本为384.81的驱动程序 对应的 运行时版本是9.0,也就是说我们在python中安装cudatoolkit和cudnn程序包版本9.2是过高了。 因为系统中依赖GPU驱动的程序比较多,一般出现这种情况,我们都是更改cudatoolkit和cudnn程序包的版本。 于是,先卸载python中安装cudatoolkit和cudnn程序包:pip uninstall cudnn ; pip uninstall cudatoolkit 然后安装对应版本的cudatoolkit和cudnn程序包:pip install cudatoolkit=9.0;pip install cudnn 5.为什么会出现这种情况呢: 一般出现这种情况是因为在python中安装tensorflow的gpu版本时,pip会检查tensorflow依赖的其他的包,如果依赖的包没有安装,则会先安装最新版本的依赖包。这时候tensorflow的gpu版本依赖cudatoolkit和cudnn程序包,pip就会安装最新版本的cudatoolkit和cudnn程序包,最终导致gpu驱动版本和cuda运行时版本不匹配。 s

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019.04.16 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 腾讯云
    • 1.1 数量和机型比较
      • 1.2 操作系统
        • 1.3 服务
          • 1.4 价格
          • 2. 阿里云GPU服务器
            • 2.1 GPU 类型
              • 2.2 阿里镜像
              • 3.腾讯云GPU
                • 3.1 机型
                  • 3.2 镜像
                  • 4.安装tensorflow-gpu
                    • 4.1 查看GPU驱动
                      • 4.2 安装Minconda
                      • 5.keras 训练cifar10
                      • 6.多显卡
                      • 7 不同显卡
                      • 8.CUDA driver version is insufficient for CUDA runtime version
                      相关产品与服务
                      GPU 云服务器
                      GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
                      领券
                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档