IBM高级研发工程师武维：如何分布式训练深度学习模型？| 分享总结

AI研习社

发布于 2018-03-16 14:27:56

7950

发布于 2018-03-16 14:27:56

文章被收录于专栏：AI研习社

AI 研习社按：随着深度学习神经网络规模越来越大，训练一个深度神经网络（Deep Neural Networks, DNNs）往往需要几天甚至几周的时间。为了加快学习速度，经常需要分布式的 CPU/GPU 集群来完成整个训练。本文就就来为大家简单简单介绍一下如何进行分布式训练深度学习模型。

在近期 AI 研习社的线上公开课上，来自 IBM 系统部研发工程师武维博士为大家做了一期主题为「深度学习中的分布式训练」的在线分享，错过了直播的同学们如果看了本文有疑惑之处还可以到雷锋网(公众号：雷锋网) AI 慕课学院观看视频回放（进入原文阅读观看视频回放）。

武维，IBM 系统部研发工程师，曾就职于华为大数据产品部及 IBM 中国研究院，担任系统工程师/研究员；西安交通大学系统工程博士，目前主要研发方向为深度学习中的分布式训练框架与模型。

以下是雷锋网对视频直播内容做的简要回顾：

分享提纲：

为什么要分布式训练深度学习模型及分布式TensorFlow架构。
TensorFlow图内复制和图间复制。
深度学习模型异步训练和同步训练。
Case Study：如何把单机模型分布式化。
分布式模型训练性能介绍。

分享内容：

大家好，我是武维，今天分享的第一部分介绍一下为什么要采用分布式训练以及分布式 TensorFlow 的架构，第二部分讲 TensorFlow 图内复制和图间复制，第三部分是关于分布式训练中的同步训练和异步训练的简要介绍。第四部分是关于如何把单机模型分布式化成分布式模型，第五部分是关于分布式训练的性能介绍。

为什么要采用分布式训练呢，分布式训练主要处理什么问题，以及如何处理的？

下图是关于TPU架构数据中心的图

第一个原因，是增加训练的吞吐量；第二个原因是是针对大模型训练，大模型通常在一个设备中放不下。

下面左图中的横坐标可以认为是 GPU 个数，纵坐标为处理图片的速度。

针对大模型怎么去训练？现在的办法是把模型拆解到不同的GPU卡里面，每个GPU卡里面训练一部分，这样就可以把一个大模型分布式训练起来。

如何实现这个流程

左边是TensorFlow的一个基本的运行流程。

TensorFlow 的发展过程

分布式TensorFlow架构，它的架构是基于Master 和 Slaver的架构。

以上是从master 和slaver 的角度讲深度学习分布式架构，下面从worker 的角度来看：

深度学习首先要训练参数，在分布式里面会把参数存放在参数服务器，如果 worker 需要运算的话，首先从参数服务器读取参数到到 CPU 上。目前来说，大多数的深度学习训练都是在 GPU 设备上进行的，所以需要把读取的数据复制到 GPU 上，GPU 就可以从左往右开始运算。最后通过求导找到变量所对应的梯度，然后在将梯度复制到机器上所对应的的 CPU 上，CPU 再通过网络通信把他发送给参数服务器，这是从整个 worker 角度去看分布式架构。