前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DeepRack深度学习一体机要逆天了?

DeepRack深度学习一体机要逆天了?

作者头像
小莹莹
发布2018-04-23 11:55:52
1.5K0
发布2018-04-23 11:55:52
举报

深度学习(Deep Learning)在这两年风靡全球,大数据和高性能计算平台的推动作用功不可没,绝对算得上是深度学习的“燃料”和“引擎”,而GPU(图形处理器)则是引擎中的引擎,基本所有的深度学习计算平台都采用GPU加速,其出色的浮点计算性能特别提高了深度学习两大关键活动:分类和卷积的性能,同时又达到了所需的精准度。

采用GPU加速与只采用CPU训练CNN(卷积神经网络)的性能比较

  以ImageNet竞赛为例,基于GPU加速的深度学习算法,百度、微软和Google的计算机视觉系统在ImageNet图像分类和识别测试中分别达到了5.98%(2015年1月数据)、4.94%(2015年2月数据)、4.8%(2015年2月数据)的错误率,接近或超过了人类识别水平。

  深度学习为什么会选中GPU呢?与CPU擅长逻辑控制和通用类型数据运算不同,GPU采用了数量众多的计算单元和超长的流水线,但只有非常简单的控制逻辑并省去了Cache,面对的是类型高度统一、相互无依赖的大规模数据和不需要被打断的纯净的计算环境,擅长大规模并发计算。相比之下,CPU的计算能力只是GPU很小的一部分。

CPU与GPU的结构对比图

  因此,与单纯使用 CPU 的做法相比,GPU 具有数以千计的计算核心、可实现 10-100 倍应用吞吐量,在同样的深度学习程序中,应用单个GPU的执行速度比单纯使用 CPU快上10倍。按照这样的比率,云创大数据刚发布的DeepRack深度学习一体机,在4个节点满配时,相当于160台选用英特尔E5-2600系列至强处理器的服务器,可提供最大每秒128万亿次的单精度计算能力,计算性能完全逆天。

DeepRack深度学习一体机全景图

  具体而言,DeepRack深度学习一体机可配置4个4U高性能节点,每个计算节点可插入4块英伟达GPU卡,在 CPU为Dual E5-2620 V3、GPU为Titan X的硬件配置之下,单个GPU执行速度比单纯使用 CPU快上10倍,那么每个节点的执行速度就是单纯使用 CPU的 40倍,整个机柜包括4个这样的计算节点,也就是160倍,满配时的DeepRack深度学习一体机相当于160台单纯使用 CPU的服务器。

DeepRack深度学习一体机计算节点内部图

  除了强悍的硬件支撑,DeepRack深度学习一体机同时预装CentOS操作系统,集成了两套世界一流的开源工具软件——Google的TensorFlow以及加州大学伯克利分校的Caffe,可以帮助学习诸如图像识别、语音识别和语言翻译等任务。与此同时,DeepRack还提供MNIST、CIFAR-10、ImageNet等图像数据集以及一百万张车牌的图片数据,可满足实验与模型塑造过程中的训练数据需求。

  对于深度学习开发者而言,还需要面对软件系统的部署和调试、复杂的算法、频繁的参数调节等多重难题。对此,在DeepRack深度学习一体机之外,云创大数据将提供免费周到的培训,使用户根据操作手册即可快速搭建属于自己的深度学习应用,享受从部署到使用提供完整的服务体系,帮助用户带出一个能够切实应用深度学习的团队。

  对于门槛高、部署难的深度学习而言,DeepRack深度学习一体机完全是深度学习利器。经过选配组合,用户可选择极简型、经济型、标准型以及增强型等四种规格。其中,极简型作为单机,拥有单一节点,其他三种规格则是包括4个节点的独立机柜。

硬件配置参数

来源:中国大数据

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-10-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档