深度学习(Deep Learning)在这两年风靡全球,大数据和高性能计算平台的推动作用功不可没,绝对算得上是深度学习的“燃料”和“引擎”,而GPU(图形处理器)则是引擎中的引擎,基本所有的深度学习计算平台都采用GPU加速,其出色的浮点计算性能特别提高了深度学习两大关键活动:分类和卷积的性能,同时又达到了所需的精准度。
采用GPU加速与只采用CPU训练CNN(卷积神经网络)的性能比较
以ImageNet竞赛为例,基于GPU加速的深度学习算法,百度、微软和Google的计算机视觉系统在ImageNet图像分类和识别测试中分别达到了5.98%(2015年1月数据)、4.94%(2015年2月数据)、4.8%(2015年2月数据)的错误率,接近或超过了人类识别水平。
深度学习为什么会选中GPU呢?与CPU擅长逻辑控制和通用类型数据运算不同,GPU采用了数量众多的计算单元和超长的流水线,但只有非常简单的控制逻辑并省去了Cache,面对的是类型高度统一、相互无依赖的大规模数据和不需要被打断的纯净的计算环境,擅长大规模并发计算。相比之下,CPU的计算能力只是GPU很小的一部分。
CPU与GPU的结构对比图
因此,与单纯使用 CPU 的做法相比,GPU 具有数以千计的计算核心、可实现 10-100 倍应用吞吐量,在同样的深度学习程序中,应用单个GPU的执行速度比单纯使用 CPU快上10倍。按照这样的比率,云创大数据刚发布的DeepRack深度学习一体机,在4个节点满配时,相当于160台选用英特尔E5-2600系列至强处理器的服务器,可提供最大每秒128万亿次的单精度计算能力,计算性能完全逆天。
DeepRack深度学习一体机全景图
具体而言,DeepRack深度学习一体机可配置4个4U高性能节点,每个计算节点可插入4块英伟达GPU卡,在 CPU为Dual E5-2620 V3、GPU为Titan X的硬件配置之下,单个GPU执行速度比单纯使用 CPU快上10倍,那么每个节点的执行速度就是单纯使用 CPU的 40倍,整个机柜包括4个这样的计算节点,也就是160倍,满配时的DeepRack深度学习一体机相当于160台单纯使用 CPU的服务器。
DeepRack深度学习一体机计算节点内部图
除了强悍的硬件支撑,DeepRack深度学习一体机同时预装CentOS操作系统,集成了两套世界一流的开源工具软件——Google的TensorFlow以及加州大学伯克利分校的Caffe,可以帮助学习诸如图像识别、语音识别和语言翻译等任务。与此同时,DeepRack还提供MNIST、CIFAR-10、ImageNet等图像数据集以及一百万张车牌的图片数据,可满足实验与模型塑造过程中的训练数据需求。
对于深度学习开发者而言,还需要面对软件系统的部署和调试、复杂的算法、频繁的参数调节等多重难题。对此,在DeepRack深度学习一体机之外,云创大数据将提供免费周到的培训,使用户根据操作手册即可快速搭建属于自己的深度学习应用,享受从部署到使用提供完整的服务体系,帮助用户带出一个能够切实应用深度学习的团队。
对于门槛高、部署难的深度学习而言,DeepRack深度学习一体机完全是深度学习利器。经过选配组合,用户可选择极简型、经济型、标准型以及增强型等四种规格。其中,极简型作为单机,拥有单一节点,其他三种规格则是包括4个节点的独立机柜。
硬件配置参数
来源:中国大数据