学界 | 香港浸会大学:四大分布式深度学习框架在GPU上的性能评测

选自arXiv

作者:施少怀、褚晓文

机器之心编译

参与:陈韵竹、李泽南

随着深度学习应用不断进入商用化,各类框架在服务器端上的部署正在增多,可扩展性正逐渐成为性能的重要指标。香港浸会大学褚晓文团队近日提交的论文对四种可扩展框架进行了横向评测(Caffe-MPI、CNTK、MXNet 与 TensorFlow)。该研究不仅对各类深度学习框架的可扩展性做出了对比,也对高性能服务器的优化提供了方向。

近年来,深度学习(DL)技术在许多 AI 应用当中取得了巨大成功。在获得大量数据的情况下,深度神经网络(DNN)能够很好地学习特征表示。但是,深度神经网络和大规模数据有着很高的计算资源要求。幸运的是,一方面,硬件加速器例如 GPU,FPGA 和 Intel Xeon Phi 可减少模型训练时间。另一方面,近期的一些研究已经证明,具有非常大的 mini-batch 的 DNN 可以很好地收敛到局部最小值。这对于利用大量处理器或集群而言是非常重要的。单个加速器的计算资源(比如计算单元和内存)有限,无法处理大规模神经网络。因此,人们提出了并行训练算法以解决这个问题,比如模型并行化和数据并行化。这也让科技巨头们在云服务中部署可扩展深度学习工具成为可能。亚马逊采用 MXNet 作为云服务 AWS 的主要深度学习框架,谷歌采取 TensorFlow 为谷歌云提供支持,而微软为微软云开发了 CNTK。此外,浪潮集团开发了 Caffe-MPI 以支持 HPC 的分布式部署。

在英伟达高性能 DNN 库 cuDNN 的帮助下,CNTK,MXNet 和 TensorFlow 除了能在单 GPU 上实现高吞吐率之外,还能在多个 GPU 和多种机器之间实现良好的可扩展性。这些框架为开发者提供了一个开发 DNN 的简便方法。此外,尝试相关算法优化,通过使用多核 CPU、众核 GPU、 多 GPU 和集群等硬件来实现高吞吐率。但是,由于软件开发商的实施方法不尽相同,即使在同一个硬件平台上训练相同的 DNN,这些工具的性能表现也不尽相同。研究者已经对各种工具在不同 DNN 和不同硬件环境下进行了评估,但是深度学习框架和 GPU 的升级太过频繁,导致这些基准无法反映 GPU 和软件的最新性能。另外,多 GPU 和多机平台的可扩展性还没有得到很好的研究,但这是计算机集群最重要的性能指标之一。

本文扩展了我们之前的工作,尝试评估 4 个分布式深度学习框架(即 Caffe-MPI、CNTK、MXNet 和 TensorFlow)的性能。我们使用四台由 56 Gb 的 InfiniBand 架构网络连接的服务器,其中每一个都配备了 4 块 NVIDIA Tesla P40,以测试包括单 GPU,单机多 GPU,和多机在内的 CNN 架构的训练速度。我们首先测试了随机梯度下降(SGD)优化的运行性能,然后关注跨多 GPU 和多机的同步 SGD(S-SGD)的性能,以分析其细节。我们的主要研究发现如下:

  • 对于相对浅层的 CNN(例如 AlexNet),加载大量训练数据可能是使用较大 mini-batch 值和高速 GPU 的潜在瓶颈。有效的数据预处理可以降低这一影响。
  • 为了更好地利用 cuDNN,我们应该考虑自动调优以及输入数据的格式(例如 NCWH,NWHC)。CNTK 和 MXNet 都对外显露了 cuDNN 的自动调优配置,这都有利于在前向传播和反向传播中获得更高的性能。
  • 在拥有 multiple GPU 的 S-SGD 当中,CNTK 不会隐藏梯度通信的开销。但是,MXNet 和 TensorFlow 将当前层的梯度聚合与前一层的梯度计算并行化处理。通过隐藏梯度通信的开销,扩展性能会更好。
  • 所在四个高吞吐量的密集 GPU 服务器上,所有框架的扩展结果都不是很好。通过 56Gbps 网络接口的节点间梯度通信比通过 PCIe 的节点内通信慢得多。

论文:Performance Modeling and Evaluation of Distributed Deep Learning Frameworks on GPUs

论文链接:https://arxiv.org/pdf/1711.05979.pdf

深度学习框架已经被广泛部署于 GPU 服务器上,已为学术界和工业界的深度学习应用提供支持。在深度学习网络(DNN)的训练中,有许多标准化过程或算法,比如卷积运算和随机梯度下降(SGD)。但是,即使是在相同的 GPU 硬件运行相同的深度学习模型,不同架构的运行性能也有不同。这篇文章分别在单 GPU,多 GPU 和多节点环境下评估了四种先进的分布式深度学习框架(即 Caffe-MPI、CNTK、MXNet 和 TensorFlow)的运行性能。首先,我们构建了使用 SGD 训练深度神经网络的标准过程模型,然后用 3 种流行的卷积神经网络(AlexNet、GoogleNet 和 ResNet-50)对这些框架的运行新能进行了基准测试。通过理论和实验的分析,我们确定了可以进一步优化的瓶颈和开销。文章的贡献主要分为两个方面。一方面,对于终端用户来说,针对他们的场景,测试结果为他们选择合适的框架提供了参考。另一方面,被提出的性能模型和细节分析为算法设计和系统配置而言提供了更深层次的优化方向。

表 2 针对数据并行化的实验硬件配置

图 1 GPU 集群的拓扑

表 3 实验所用的软件

表 4 试验中神经网络的设置

表 5 SGD 不同阶段的时间(单位:秒)

图 3 三种神经网络在单 GPU 上的性能比较(数值越低越好)

图 4 三种神经网络在单节点多 GPU 上的扩展性能

表 6 多 GPU 前端节点梯度聚合的数据通信开销

表 7 多机梯度聚合的数据通信开销

图 5 多机环境下三种神经网络的扩展性能。请注意,每台机器 4 块 GPU,8 块 GPU 和 16 块 GPU 的情况是分别跨 2 个与 4 个机器的。

表 8 所有测试案例的速度

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-11-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

动态|谷歌开源T2T模型库,深度学习系统进入模块化时代!

AI 科技评论按:6月19日,谷歌发布了T2T(Tensor2Tensor)深度学习开源系统,这个系统的一大优点是模块化,这也就意味着系统更加灵活,适应性更强。...

33980
来自专栏机器之心

业界 | 谷歌大脑开源多种新型神经网络优化器,AutoML探索新架构

选自Google Research Blog 作者: Irwan Bello 机器之心编译 参与:张倩、刘晓坤 谷歌大脑团队希望用类似于 AutoML 发现新神...

33940
来自专栏PaddlePaddle

【AI核心技术】课程七:计算机视觉深入认知

UAI与PaddlePaddle联合推出的【AI核心技术掌握】系列课程持续更新中!

12630
来自专栏WeTest质量开放平台团队的专栏

机器学习在启动耗时测试中的应用及模型调优(一)

启动耗时自动化方案在关键帧识别时,常规的图像对比准确率很低。本文详细介绍了采用scikit-learn图片分类算法在启动耗时应用下的模型调优过程。

20030
来自专栏IT派

7月机器学习最佳开源项目Top 10

【导读】七月就要结束了,在即将到来的 7 月最后一个周末,人工智能头条为大家整理了本月 ML 最受欢迎的十大开源项目。就算放假在家也可以知道大家现在都在学些什...

8710
来自专栏深度学习之tensorflow实战篇

算法岗位做数据挖掘大多都是抽特征跑跑现成模型”

这句话,说起来很简单,看起来也很容易,但真的是这样吗? 我列举几点,扩展一下上面这句话: 1、label符合业务场景吗?label准确吗?能够校准吗?放在哪张表...

35990
来自专栏腾讯开源的专栏

【开源公告】腾讯 AI Lab 正式开源业内最大规模多标签图像数据集

2018年10月17日,深圳 - 今日,腾讯AI Lab宣布正式开源“Tencent ML-Images”项目,该项目由多标签图像数据集ML-Images,以...

11920
来自专栏新智元

AutoML又一利器来了,谷歌宣布开源AdaNet(附教程)

今天,谷歌宣布开源AdaNet,这是一个轻量级的基于TensorFlow的框架,可以在最少的专家干预下自动学习高质量的模型。

34650
来自专栏张善友的专栏

一个开源的,跨平台的.NET机器学习框架ML.NET

19560
来自专栏CDA数据分析师

译 | 在R中使用quadprog包求解二次规划

本文由CDA作者库成员HarryZhu翻译,并授权发布。 CDA作者库凝聚原创力量,只做更有价值的分享。 概述 本文将探究一个被称为二次规划的优化问题,这是一种...

35090

扫码关注云+社区

领取腾讯云代金券