使用GPU和Theano加速深度学习

【编者按】GPU因其浮点计算和矩阵运算能力有助于加速深度学习是业界的共识,Theano是主流的深度学习Python库之一,亦支持GPU,然而Theano入门较难,Domino的这篇博文介绍了如何使用GPU和Theano加速深度学习,使用更简单的基于Theano的 Nolearn库。教程由多层感知器及卷积神经网络,由浅入深,是不错的入门资料。

基于Python的深度学习

实现神经网络算法的Python库中,最受欢迎的当属Theano。然而,Theano并不是严格意义上的神经网络库,而是一个Python库,它可以实现各种各样的数学抽象。正因为如此,Theano有着陡峭的学习曲线,所以我将介绍基于Theano构建的有更平缓的学习曲线的两个神经网络库。

第一个库是 Lasagne。该库提供了一个很好的抽象,它允许你构建神经网络的每一层,然后堆叠在彼此的顶部来构建一个完整的模型。尽管这比Theano显得更好,但是构建每一层,然后附加在彼此顶部会显得有些冗长乏味,所以我们将使用 Nolearn库,它在Lasagne库上提供了一个类似 Scikit-Learn风格的API,能够轻松地构建多层神经网络。

延伸阅读: 从Theano到Lasagne:基于Python的深度学习的框架和库

由于这些库默认使用的不是Domino硬件,所以你需要创建一个requirements.txt文件,该文件内容如下:

配置Theano

现在,在我们导入Lasagne库和Nolearn库之前,首先我们需要配置Theano,使其可以使用GPU硬件。要做到这一点,我们需要在我们的工程目录中新建一个.theanorc文件,该文件内容如下:

这个.theanorc文件必须放置在主目录中。在你的本地计算机上,这个操作可以手工完成,但我们不能直接访问Domino机器的主目录,所以我们需要使用下面的代码将文件移到它的主目录中:

上面的代码会在主目录创建了一个空的.theanorc文件,然后复制我们项目目录下的.theanorc文件内容到该文件中。

将硬件切换到GPU后,我们可以来做一下测试,使用Theano文档中提供的测试代码来看看Theano是否能够检测到GPU。

如果Theano检测到GPU,上面的函数运行时间应该需要0.7秒,并且输出“Used the gpu”。否则,整个过程将需要2.6秒的运行时间,同时输出“Used the cpu”'。如果输出的是后一个,那么你肯定是忘记将硬件切换到GPU了。

数据集

对于这个项目,我们将使用CIFAR-10图像数据集,它来自10个不同的类别,包含了60000个32x32大小的彩色图像。

幸运的是,这些数据属于 pickled格式,所以我们可以使用辅助函数来加载数据,将每个文件加载到NumPy数组中并返回训练集(Xtr),训练集标签(Ytr),测试集(Xte)以及测试集标签(Yte)。下列代码归功于 Stanford's CS231n课程的工作人员。

多层感知器

多层感知器是一种最简单的神经网络模型。该模型包括一个输入层数据,一个施加一些数学变换的隐藏层,以及一个输出层用来产生一个标签(不管是分类还是回归,都一样)。

图片来源:http://dms.irb.hr/tutorial/tut_nnets_short.php

在我们使用训练数据之前,我们需要把它的灰度化,把它变成一个二维矩阵。此外,我们将每个值除以255然后减去0.5。当我们对图像进行灰度化时,我们将每一个(R,G,B)元组转换成0到255之间的浮点值)。通过除以255,可以标准化灰度值映射到[0,1]之间。接下来,我们将所有的值减去0.5,映射到区间[ -0.5,0.5 ]上。现在,每个图像都由一个1024维的数组表示,每一个值都在- 0.5到0.5之间。在训练分类网络时,标准化你的输入值在[-1,1]之间是个很常见的做法。

使用nolearn的API,我们可以很容易地创建一个输入层,隐藏层和输出层的多层感知器。hidden_num_units = 100表示我们的隐藏层有100个神经元,output_num_units = 10则表示我们的输出层有10个神经元,并与标签一一对应。输出前,网络使用 softmax函数来确定最可能的标签。迭代50次并且设置verbose=1来训练模型,最后会输出每次迭代的结果及其需要的运行时间。

从侧面来说,这个接口使得它很容易建立深层网络。如果我们想要添加第二个隐藏层,我们所需要做的就是把它添加到图层参数中,然后在新增的一层中指定多少个神经元。

现在,正如我前面提到的关于Nolearn类似Scikit-Learn风格的API,我们可以用fit函数来拟合神经网络。

当网络使用GPU训练时,我们可以看到每次迭代时间通常需要0.5秒。

另一方面,当Domino的硬件参数设置为XX-Large(32 core, 60 GB RAM),每次迭代时间通常需要1.3秒。

通过GPU训练的神经网络,我们可以看到在训练网络上大约提速了3倍。正如预期的那样,使用GPU训练好的神经网络和使用CPU训练好的神经网络产生了类似的结果。两者产生了相似的测试精度(约为41%)以及相似的训练损失。

通过下面代码,我们可以在测试数据上测试网络:

最后,我们在测试数据上得到的精度为41%。

卷积网络

卷积神经网络是一种更为复杂的神经网络结构,它的一个层中的神经元和上一层的一个子集神经元相连。结果,卷积往往会池化每个子集的输出。

图片来源:http://colah.github.io/posts/2014-07-Conv-Nets-Modular/

卷积神经网络在企业和 Kaggle 竞赛中很受欢迎,因为它能灵活地学习不同的问题并且易扩展。

同样,在我们建立卷积神经网络之前,我们首先必须对数据进行灰度化和变换。这次我们会保持图像32x32的大小不变。此外,我已经修改了矩阵的行顺序,所以每个图像现在被表示为(color,x,y)格式。跟之前一样,我将特征的每个值除以255,再减去0.5,最后将数值映射到区间(-1,1)。

现在我们可以构造卷积神经网络了。该网络由输入层,3个卷积层,3个2x2池化层,200个神经元隐藏层以及最后的输出层构成。

接着,我们再次使用fit函数来拟合模型。

与多层感知器相比,卷积神经网络的训练时间会更长。使用GPU来训练,大多数的迭代需要12.8s来完成,然而,卷积神经网络验证损失约为63%,超过了验证损失为40%的多层感知器。也就是说,通过卷积层和池化层的结合,我们可以提高20%的精度。

在只有Domino的XX-大型硬件层的CPU上,每个训练周期大概需要177秒完成,接近于3分钟。也就是说,用GPU训练,训练时间提升了大约15倍。

和前面一样,我们可以看到在CUP上训练的卷积神经网络与GPU上训练的卷积神经网络有着类似的结果,相似的验证精度与训练损失。

此外,当我们在测试数据上测试卷积神经网络时,我们得到了61%的精度。

建立卷积神经网络的所有代码都可以在ConvolutionNN.py这个 文件中找到。

最后,正如你所看到的,使用GPU训练的深度神经网络会加快运行加速,在这个项目中它提升的速度在3倍到15倍之间。无论是在工业界还是学术界,我们经常会使用多个GPU,因为这会大大减少深层网络训练的运行时间,通常能从几周下降至几天。

原文链接:Faster deep learning with GPUs and Theano

(译者/刘帝伟 审校/刘翔宇、朱正贵 责编/周建丁)

关于译者: 刘帝伟,中南大学软件学院在读研究生,关注机器学习、数据挖掘及生物信息领域。 

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2015-08-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

资源 | 给卷积神经网络“修理工”的一份“说明书”

这篇文章的主要内容来自作者的自身经验和一些在线资源(如最出名的斯坦福大学的CS231n课程讲义),是关于如何调试卷积神经网络从而提升其性能的。

921
来自专栏大数据文摘

深度 | 你的神经网络不work? 这37个原因总有一款适合你!

1393
来自专栏机器之心

专栏 | 手机端运行卷积神经网络实践:基于TensorFlow和OpenCV实现文档检测功能

机器之心投稿 作者:腾讯 iOS 客户端高级工程师冯牮 本文作者通过一个真实的产品案例,展示了在手机客户端上运行一个神经网络的关键技术点。 前言 本文不是神经网...

4155
来自专栏机器之心

业界 | Poseidon:高效的分布式深度学习通信架构

选自arXiv 机器之心编译 参与:蒋思源、吴攀 近日,卡耐基梅隆大学(CMU)和 Petuum 推出了新一代高效的分布式深度学习通信架构 Poseidon。P...

4059
来自专栏腾讯移动品质中心TMQ的专栏

机器学习之一:聚类实战

可预见的未来数据分析和机器学习将成为工作中必备技能,也许已经在某个项目中讨论怎么调参优化,就像过去讨论如何优雅的写python、如何避免C++内存泄露一样常见。

2275
来自专栏AI科技评论

开发 | 模型表现不好怎么办?37条妙计助你扭转局势

AI 科技评论按:读论文,看别人的模型的时候仿佛一切都顺利成章,可是等到自己训练模型的时候,麻烦一个接一个…… AI 科技评论找到了一篇国外大神 Slav Iv...

3456
来自专栏AI科技大本营的专栏

AI 技术讲座精选:如何在时序预测问题中在训练期间更新LSTM网络

使用神经网络解决时间序列预测问题的好处是网络可以在获得新数据时对权重进行更新。 在本教程中,你将学习如何使用新数据更新长短期记忆(LTCM)递归神经网络。 在...

3446
来自专栏AI科技大本营的专栏

AI 技术讲座精选:「Python」LSTM时序预测状态种子初始化

长短期记忆网络(LSTM)是一种强大的递归神经网络,能够学习长观察值序列。 LSTM的一大优势是它们能有效地预测时间序列,但是作这种用途时配置和使用起来却较为...

3595
来自专栏机器之心

资源 | 用PyTorch搞定GluonCV预训练模型,这个计算机视觉库真的很好用

项目地址:https://github.com/zhanghang1989/gluoncv-torch

1045
来自专栏计算机视觉战队

CVPR—II | 经典网络再现,全内容跟踪

今天首先给大家带来“YOLO”!也被上一篇“Faith”读者说对了,在此也感谢大家的关注与阅读,O(∩_∩)O谢谢 YOLO ? 看到这个封面,相信很多很多...

3565

扫码关注云+社区