前沿 | 18000块GPU的深度学习机器:橡树岭实验室即将推出Summit超级计算机

选自Nextplatform

作者:Nicole Hemsoth

机器之心编译

参与:黄小天、李泽南

美国橡树岭国家实验室的「Titan」超级计算机是「美洲虎」的继任者。它由 18688 块 AMD Opteron 6274 16 核 CPU 与 18688 块英伟达 Tesla K20X GPU 组成,在世界超级计算机性能排名中位列第三(17590 TFlop/s,2016 年 11 月排名)。在近几年的发展中,该实验室的研究小组一直致力于使用多 GPU 优化深度神经网络的计算,为深度学习任务提供优化。橡树岭实验室的探索为机器学习硬件架构的发展指出了一个方向,在 Titan 之后,这家实验室正计划在 2017 年底推出「Summit」超级计算机。

在单个 GPU 或在带有 4 到 8 个 GPU 的单个系统上部署(scale)神经网络是一件事;但是让其通过数千个节点,却完全是另外一件事。绝大多数深度学习研究中心具备用来训练的相对较小的 GPU 集群,但肯定没有橡树岭国家实验室的 Titan 超级计算机这样的庞然大物。

过去在单一模型的运行中,对机器学习部署性(scalability)的强调经常聚焦在节点数量上。这对一些应用有帮助,但是随着神经网路逐渐整合进现有工作流程(包括 HPC 工作流程在内),就会出现另一种看待部署性的方式。来自 HPC 应用领域的经验很有趣,比如天气预报模型,它不是通过整个(monolithic)模型预测天气,而是聚合大型超级计算机并行运算的总体结果以给出最佳预测。在神经网络中使用这种聚合方法可部署数千个节点,并从聚合的平均值中得到最终结果。这种聚合在不需要精确度(不止一种方式)的领域可以接受,但它不适用于 HPC 计算。

这一方法已经被用在橡树岭国家实验室的 Titan 超级计算机上,橡树岭有大量的 GPU,因而在深度学习训练方面实力强大。包含 18688 块 Tesla K20X GPU 的 Titan 超级计算机已被证明在大量的科学模拟方面很有用,并在深度学习框架(包括 Caffe)方面具备双重功能,以提升 HPC 模仿(分类、噪音过滤等)能力。实验室的下一代超级计算机「Summit」(预计于 2017 年底推出)配备有 Nvidia Volta Tesla 图像协处理器、高带宽内存、可更快速传递数据的 NVLink 以及 IBM Power9 CPU,从而使 GPU 更加强大。

ORNL 研究员将这一聚合方法用于神经网络,并可在机器中的所有 GPU 上扩展这些网络。即使对那些被做出以在大型超级计算机运行的大量模拟的类型来说,这也是一个值得注意的壮举。有趣的是尽管框架可能来自深度学习(ORNL 情况中的 Caffe),节点到节点的通信却根植于 HPC 之中。正如我们之前所言,MPI 仍是 InfiniBand-连接的节点之间快速通信的最佳方法,并且正如其他地方的研究者,ORNL 已经将 MPI 大规模地用于了深度学习。

现在,这个团队正使用每个个体节点训练一个单独的深度学习网络,但是所有这些不同的网络需要相同的数据如果训练来自同一数据集。问题是如何几乎同时给 18000 多块 GPU 输入相同数据,且这个系统并非专门为此设计。答案是可分配和分发数据的自定义 MPI 层。Titan 的后继者,即将推出的 Summit 超级计算机将在每个节点上运行 6 块 Volta GPU。HPC 应用团队正在解决的另一个问题是多 GPU 部署。

我们不是在多节点上部署一个单独的深度学习网络,而是部署网络的聚合,或者由数十甚至数千个不同网络组成的群体,并通过通信在多节点之间部署它们。有了这些 5 到 7 个相当相似的深度学习网络的聚合,我们就可获得结果并取平均值。如果我们有数万个网络且彼此各不相同,我们也会观察如何部署这些聚合以获得跟好结果。

最终,MPI 在深度学习的部署依赖于系统和 MPI 的吞吐量,因为神经网络中包含数千个节点,而在训练中数据将会进行同步迭代。其中,每次迭代都会使网络中的多个神经元更新,所以如果神经网络在不同的节点中有交汇,整个网络就会产生交流。这本身就很大了,但我们还要考虑到从硬盘中提取和传输数据的延迟(尽管 burst 缓冲在这里可以发挥作用)。「还有一些新方法可以改善 MPI 的鲁棒性,但同时也限制了通信交流的特性。HPC 需要稳定,但神经网络相比大多数 HPC 应用更能容忍错误,」Patton 说道。「在未来,我们希望能在节点和磁盘通信中使用同样的 I/O,这样当数据集更大时就不需要超大带宽了。」

除了在 Titan 中部署深度神经网络之外,研究小组还探索了适用于不同数据集的自动设计神经网络。在此之前,用于图像识别的神经网络不能用于识别语音,但该实验组部署在超过 5000 块 GPU 上的自动设计代码可以在不同任务中都达到 80% 的准确率。

「算法是可以进化的,所以我们可以设计深度学习网络的参数来发展这种自动化,」橡树岭实验室的计算分析科学家 Robert Patton 说道。「我们可以找来一个新的数据集,对神经网络进行训练,生成一个表现良好的模型。」

在开始研究自动生成的神经网络之后,橡树岭的研究者们一直在与其他重点实验室配合进行从大规模神经网络中进行数据分类和去除噪音的研究。其中包括费米国家实验室,两家实验室展开了高能物理方面的研究,实验有关中微子和亚原子粒子的区分。「模拟产生了大量的数据,常规方法很难对其进行处理,甚至将其存储在硬盘里都很困难。」Patton 说道。「我们希望在模拟的数据中实时找到有趣的东西,然后将部分高分辨率数据的快照收集起来以供后期分析。」

「Summit」关注橡树岭实验室里各个团队在应用已有 HPC 设备实现深度学习时面临的挑战,研究如何最大限度地发挥手头上的硬件。

「我们在 2012 年开始关注深度学习,GPU 在最近几年的发展中占据着重要的位置,因为它让研究者们的开发速度大大提升,」Patton 解释道。「在解决完最重大的问题后,到 2014 年,我们开始思考如果一块 GPU 能够加快深度学习的速度,那么 18000 块 GPU 会是什么样呢?于是 Titan 超级计算机出现了。」

虽然像 Titan 这样混合 GPU 与 CPU 强大性能的超级计算机具有很大规模,但它们并不是为深度学习打造的。Summit 硬件架构的革新在突破瓶颈前还有很长一段路要走,但硬件的正确组合方式可能会催生一些非典型的架构——如神经形态芯片设备,或专门加速模型训练或预测的芯片。「现在,如果我们想在 HPC 的应用里实时进行机器学习运算,我们仍会受困于训练。我们需要从硬盘中加载数据进行处理,如果数据没有全部读出,训练就不能进行,所以我们都对 Summit 非常期待,它能让我们更快地将数据从硬盘注入各个节点,这意味着更厚、更密集的神经网络,拥有更高的存储容量。」Patton 说道。

「昂贵的 HPC 系统需要花费大量资源来从噪音中获取有价值的信息,」Patton 说道。「问题在于,这个过程意味着放弃大量有效数据。例如在材料科学这样的领域中,科学家们很难使用到 90% 以上的数据,因为其中噪音过多,而又缺乏工具应对。」Patton 表示这就是他的团队正在寻求整合可卸载的全新架构,如神经形态芯片和量子计算机的原因。

原文链接:https://www.nextplatform.com/2017/03/28/scaling-deep-learning-beyond-18000-gpus/

本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-03-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

工程师在 AI 实践的路上,可能会踩到这些坑——前 Amazon 中国研发中心架构师蔡超演讲

蔡超,移动营销平台 Mobvista 汇量科技技术副总裁,前亚马逊中国研发中心架构师,拥有 15 年软件开发经验,其中 9 年任世界级 IT 公司软件架构师 /...

4388
来自专栏社区的朋友们

个性化资讯推荐算法 ( 下 )

头条为何能取得成功?很多人会说是头条的个性化推荐技术做得好,个人认为其实不尽然。本文罗列了相关的个性化推荐技术,特别是资讯推荐常用的算法,带大家从“内行”的角度...

1.8K0
来自专栏AI科技评论

视频 | 棋类大战中惨败的人类,现在想要在电子游戏上扳回一局

喜欢机器学习和人工智能,却发现埋头苦练枯燥乏味还杀时间?油管频道 Arxiv Insights 每周精选,从技术视角出发,带你轻松深度学习。 本期 Arxiv ...

3736
来自专栏达观数据

编译 | 人工智能与大数据开发的 12个注意点

选自《智能Web算法》(第二版) 达观数据编译 ? 机器学习是人工智能研究领域的重要方向,在大数据时代里,对数据采集、挖掘、应用的技术越来越受到瞩目,并越来越...

3227
来自专栏大数据文摘

这个用来玩儿游戏的算法,是谷歌收购DeepMind的最大原因

1416
来自专栏PPV课数据科学社区

基于客户行为事件的跨领域统一推荐模型探讨

跨领域深度学习模型一直是近几年推荐系统主要研究方向之一, 本文探讨一种个人客户画像构建的新思路, 并讨论对应的基于个人行为事件的跨领域统一推荐模型。 1、基于个...

36414
来自专栏IT大咖说

机器学习在开心词场(自适应学习)中应用

摘要 教育是最传统和复杂的社会活动,如何使用AI(机器学习)技术改造和促进人类自身学习(提高学习效率和学习效果) ,是互联网教育大数据及挖掘的基本问题;简单介绍...

3978
来自专栏AI研习社

从数据预处理到排序算法,全方位解读 Uber 人工智能客服 COTA

日前,Uber 官网上的一篇文章详细介绍了基于 NLP 和机器学习构建的 COTA 客服系统。利用该系统,Uber 可以快速高效地解决 90% 以上的客服问题,...

3237
来自专栏CSDN技术头条

【BDTC 2015】深度学习分论坛:DL的图像识别、语音识别应用进展

2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,...

2269
来自专栏机器之心

业界 | 用于机器阅读理解的迁移学习:微软提出通用型SynNet网络

选自Microsoft Research Blog 作者:Xiaodong He 机器之心编译 参与:Smith、路雪 不是每个人都会下围棋,但大多数人都会阅读...

2986

扫码关注云+社区

领取腾讯云代金券