一万元搭建深度学习系统:硬件、软件安装教程,以及性能测试

Macbook这种轻薄的笔记本,是搞不了深度学习的。亚马逊P2云服务,会给堆积越来越多的账单,换个便宜的服务,训练时间又太长……

没办法,已经十多年没用过台式机的我,只能重新着手DIY装机,搭建一套自己的深度学习系统。以下是我的系统搭建和测试过程。

硬件清单

之前,我在AWS亚马逊云服务上的花费是每月70美元(约480元人民币)。按照使用两年计算,我给这套系统的总预算是1700美元(约11650元)。

GPU

肯定得买Nvidia,没有其他选择。买两块还是一块?我想了想,还是先买一个性能更好的,以后有钱了再增加。综合显存、带宽等因素,我最终选了GTX 1080 Ti,跟Titan X相比,性能差不了多少,但价格便宜不少。

CPU

虽然比不上GPU,但CPU也很重要。从预算出发,我选了一颗中端产品英特尔i5 7500。相对便宜,但不会拖慢整个系统。

内存

两条16GB容量的内存,总共是32GB。

硬盘

两块。

一块SSD硬盘运行操作系统和当前数据,我选的是MyDigitalSSD NVMe 480GB。一块速度较慢的2TB容量HDD硬盘存储大的数据集(例如ImageNet)。

主板

为了以后的拓展,我得选能支持两块GTX 1080 Ti的主板。最后的选择是:华硕TUF Z270。

电源

得为GPU何GPU们提供足够的电力供应。英特尔i5 7500功耗是65W,一块1080Ti需要250W(以后还想加一块),所以最后选择了Deepcool 750W Gold PSU。

机箱

我听从朋友的建议,选了Thermaltake N23机箱。只是没有LED灯,伤心。

组装

组装过程按下不表,装机也是个手艺,最后效果如下图所示。

安装软件

提示:如果你想装Windows系统,最好先安装Windows,再装Linux。要不然Windows会搞乱启动分区。

安装Ubuntu

大部分深度学习框架都工作在Linux环境中,所以我选择安装Ubuntu。一个2GB容量的U盘就能搞定安装,如何制作?

  • OSX用户参考这里:

https://www.ubuntu.com/download/desktop/create-a-usb-stick-on-macos

  • Windows用户参考这里:

https://rufus.akeo.ie/

我写这个教程的时候,Ubuntu 17.04版本刚刚发布,但是我选择了之前的16.04版本,因为老版本的相关文档可能更全一点。另外,我选择的是Ubuntu桌面版本,不过关闭了图形界面X,电脑启动会进入终端模式。

如果需要图形界面,只需要输入:startx

及时更新

更新可以使用下面这个命令

深度学习堆栈

为了展开深度学习,我们需要如下软件来使用GPU:

  • GPU驱动:让操作系统和显卡可以对话
  • CUDA:能让GPU运行通用目的代码
  • CuDNN:CUDA之上的神经网络加速库
  • 深度学习框架:TensorFlow等

安装GPU驱动

最新的驱动,可以参考官网

http://nvidia.com/Download/index.aspx

或者直接使用如下代码安装:

安装CUDA

可以从Nvidia下载CUDA,地址如下:

https://developer.nvidia.com/cuda-downloads

或者直接运行如下的代码:

安装好CUDA之后,下面的代码能把CUDA添加到PATH变量:

现在可以检验一下CUDA装好没有,运行如下代码即可:

删除CUDA或GPU驱动,可以参考如下代码:

安装CuDNN

我用的是CuDNN 5.1,因为最新的TensorFlow不支持CuDNN 6。下载CuDNN,你需要创建一个免费的开发者账号。下载之后,用如下命令安装。

Anaconda

Anaconda是一个很棒的Python软件包管理器,我现在使用了Python 3.6版本,所以对应的使用Anaconda 3版本,安装如下:

TensorFlow

最流行的深度学习框架,安装:

为了检查一下TensorFlow安装好没有,可以运行MNIST看看:

应该能在训练过程中,看到loss的逐渐减少:

Keras

一个高级神经网络框架,安装非常简单:

PyTorch

深度学习框架届的新兵,但也值得推荐,安装命令:

Jupyter notebook

Jupyter是一个交互式的笔记本,随着Anaconda安装,我们要配置和测试一下:

现在打开 http://localhost:8888 ,应该就能看到Jupyter的界面。

我们可以把Jupyter设置成自动启动,使用crontab来设置。运行crontab -e,然后把如下代码添加在最后。

测试

现在基本上准备妥当了,是时候测试一下了。参加此次对比的几个选手是:

  • AWS P2实例GPU(K80)
  • AWS P2虚拟CPU
  • 英伟达GTX 1080 Ti
  • 英特尔i5 7500

MNIST多层感知器

MNIST数据集由70000手写数字组成。我们在这个数据集上运行了一个使用多层感知器(MLP)的Keras案例,代码地址:

https://github.com/fchollet/keras/blob/master/examples/mnist_mlp.py

MLP的意思是只使用全连接的层,而不用卷积。这个模型在这个数据集上进行了20次训练,实现了超过98%的准确率。

可以看到在训练这个模型时,GTX 1080 Ti比AWS P2 K80快2.4倍,这有点惊人,因为两个显卡的性能应该差不多,我觉得可能是AWS上有降频或者受到虚拟化的影响。

CPU的表现比GPU慢9倍。有趣的是,i5 7500比亚马逊的虚拟CPU快2.3倍。

VGG微调

为Kaggle猫狗识别竞赛而微调一个VGG网络。使用相同的batch在CPU上运行这个模型不可行,所以我们在GPU上微调了390个batch,在CPU上是10个batch。代码如下:

https://github.com/slavivanov/cats_dogs_kaggle

这次1080 Ti比AWS P2 K80快5.5倍。CPU在这个环节的表现,最多慢了200倍。

Wasserstein GAN

生成对抗网络(GAN)用来训练模型产生图像。Wasserstein GAN是原始GAN的一个改进版。我这里用了一个PyTorch实现,代码地址:

https://github.com/martinarjovsky/WassersteinGAN

这个模型需要50步训练,CPU在这个训练中不予考虑。

GTX 1080 Ti比AWS P2 K80快5.5倍。

风格迁移

最后一个测试是在TensorFlow上的风格迁移实现,代码地址:

https://github.com/slavivanov/Style-Tranfer

GTX 1080 Ti比AWS P2 K80快4.3倍。CPU比GPU慢30-50倍。

好啦,关于万元打造一个深度学习系统的分享,就先到这里。

作者:Slav Ivanov@blog.slavv.com 问耕 编译整理 量子位 出品 | 公众号 QbitAI

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-06-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | 基于Python的开源人脸识别库:离线识别率高达99.38%

选自Github 机器之心编译 参与:路雪 仅用 Python 和命令行就可以实现人脸识别的库开源了。该库使用 dlib 顶尖的深度学习人脸识别技术构建,在户外...

52180
来自专栏机器之心

资源 | Facebook开源人工智能框架ParlAI:可轻松训练评估对话模型

选自GitHub 机器之心编译 参与:吴攀、晏奇 Facebook 近日在 GitHub 上开源了一个可用于在多种开放可用的对话数据集上训练和评估人工智能模型...

35080
来自专栏施炯的IoT开发专栏

Windows 10 IoT Serials 10 – 如何使用OCR引擎进行文字识别

1. 引言        OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的...

52940
来自专栏量子位

腾讯开源智能运维项目,用机器学习减少人为失误

继开源800万中文词的NLP数据集之后,腾讯又开源了一个智能运维学件平台Metis,主要面向运维工程师。

15820
来自专栏量子位

一万元搭建深度学习系统:硬件、软件安装教程,以及性能测试

作者:Slav Ivanov@blog.slavv.com 问耕 编译整理 量子位 出品 | 公众号 QbitAI Macbook这种轻薄的笔记本,是搞不了深度...

43550
来自专栏ATYUN订阅号

【学术】如何在15分钟内建立一个深度学习模型?

我们正在开源Lore,它是一个框架,可供机器学习研究人员使用。 Lore地址:https://github.com/instacart/lore 机器学习常常给...

51670
来自专栏SDNLAB

ONOS:负载均衡路由算法及应用开发(一)

一、应用介绍 当新流量发起时,本应用将为其选择一条路由路径,这条路径具有全局负载均衡意义上的最小权值(Weight/Cost)。 本应用即将开源在笔者的Gith...

38370
来自专栏VRPinea

AMD正式发布Compressonator 3.0,为用户带来三款新功能

16370
来自专栏ATYUN订阅号

【实践操作】在iPhone上创建你的第一个机器学习模型

最近的苹果iPhone X发布会,你会看到iPhone X有一些很酷的功能,比如FaceID,Animoji和AR。我们需要弄明白建立这样一个系统需要什么。 当...

37160
来自专栏Python小白进阶之旅

Python黑科技:50行代码运用Python+OpenCV实现人脸追踪

首先先感谢朋友们的关注。当然我更希望认识与计算机相关的领域的朋友咱们一起探讨交流。重点说一下,我是真人,不是那些扒文章的自媒体组织,大家可以相互交流的!

84490

扫码关注云+社区

领取腾讯云代金券