业界 | MXNet开放支持Keras,高效实现CNN与RNN的分布式训练

作者:Lai Wei、Kalyanee Chendke、Aaron Markham、Sandeep Krishnamurthy

机器之心编译

参与:路、王淑婷

今日 AWS 发布博客宣布 Apache MXNet 已经支持 Keras 2,开发者可以使用 Keras-MXNet 深度学习后端进行 CNN 和 RNN 的训练,安装简便,速度提升,同时支持保存 MXNet 模型。

感谢 Keras 和 Apache MXNet(孵化)开源项目的贡献者,Keras-MXNet 深度学习后端现已可用。

地址:https://github.com/awslabs/keras-apache-mxnet

Keras 是用 Python 编写的高级神经网络 API,因其快速、简单的 CNN 和 RNN 原型而广受欢迎。

Keras 开发人员现在可以使用高性能的 MXNet 深度学习引擎展开卷积神经网络(CNN)和循环神经网络(RNN)的分布式训练。通过更新几行代码,Keras 开发人员可以利用 MXNet 的多 GPU 分布式训练功能来提高训练速度。保存 MXNet 模型是该版本的另一个宝贵功能。你可以在 Keras 中进行设计,利用 Keras-MXNet 进行训练,并使用 MXNet 在生产中运行大规模推断。

用 Keras 2 和 MXNet 进行分布式训练

本文介绍了如何安装 Keras-MXNet,以及如何训练 CNN 和 RNN。如果你以前使用过其它深度学习引擎进行分布式训练,那你可能了解其中的难度和无趣。本文将展示如何使用 Keras-MXNet 进行训练。

安装仅需几步

1. 部署 AWS 深度学习 AMI

2. 安装 Keras-MXNet

3. 配置 Keras-MXNet

1. 部署 AWS 深度学习 AMI

按照 AWS 深度学习 AMI(DLAMI)部署教程来操作,教程地址:https://aws.amazon.com/getting-started/tutorials/get-started-dlami/。要利用多 GPU 训练示例,请启用 p3.8xlarge 或类似的多 GPU 实例类型。

想安装用于运行 CUDA、Keras、MXNet 和其他框架(如 TensorFlow)的依赖项?请根据 Keras-MXNet 安装指南进行操作:https://github.com/awslabs/keras-apache-mxnet/blob/master/docs/mxnet_backend/installation.md。

2. 安装 Keras-MXNet

在 DLAMI 上的 MXnet Conda 环境中安装 Keras-MXnet 及其依赖项。它已经包含 Keras 1.0 版,因此你需要先卸载此版本。登录到 DLAMI 并运行以下命令:

# Activate the MXNet Python 3 environment on the DLAMI
$ source activate mxnet_p36

# Install a dependency needed for Keras datasets
$ pip install h5py

# Uninstall older versions Keras-MXNet
$ pip uninstall keras-mxnet

# Install Keras-MXNet v2.1.6 
$ pip install keras-mxnet

Keras-MXnet 及其依赖项现已安装在 DLAMI 上的 MXnet Conda 环境中。

3. 验证 Keras-MXNet 安装是否正确

使用以下代码验证 Keras 是否正在运行 MXNet 后端:

$ python
>>>import keras as k
   Using MXNet backend

支持 CNN

现在我们在 CIFAR-10 数据集上训练 ResNet 模型,来识别 10 个类别:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。我们可以使用 Keras-MXNet repo 示例部分中的 Keras 2 示例脚本(https://github.com/awslabs/keras-apache-mxnet/blob/master/examples/cifar10_resnet_multi_gpu.py)。使用 MXNet 作为 Keras 的后端几乎不需要对脚本进行什么更新。

首先,从 Keras-MXNet repo 文件夹中下载示例脚本:

$ wget https://raw.githubusercontent.com/awslabs/keras-apache-mxnet/master/examples/cifar10_resnet_multi_gpu.py

脚本启用 multi_gpu_model API,并输入要使用的 GPU 数量。

然后,在终端窗口运行 nvidia-smi,以确定 DLAMI 上可用 GPU 的数量。接下来,如果你有四个 GPU,那么你需要原样运行该脚本;否则,你需要运行以下命令来打开脚本进行编辑:

$ vi cifar10_resnet_multi_gpu.py

该脚本具备以下行,该行定义 GPU 的数量。如有必要,更新该行。

model = multi_gpu_model(model, gpus=4)

现在,开始训练。

$ python cifar10_resnet_multi_gpu.py

(可选)训练过程中,使用 nvidia-smi 命令检查 GPU 利用和内存使用。打开另一个终端会话。

支持 RNN

Keras-MXNet 目前提供对 RNN 的实验性支持。在使用 RNN 和 MXNet 后端时有一些局限性。更多信息,请查看 Keras-MXNet 文档:https://github.com/awslabs/keras-apache-mxnet/blob/master/docs/mxnet_backend/using_rnn_with_mxnet_backend.md。此处的示例包括使用 LSTM 层训练 IMDB 数据集时需要的一些变通方案。尽管有这些方案,但在多 GPU AMI 上训练 RNN 会比你之前的训练经验容易一些,速度也更快。

使用 imdb_lstm 示例脚本:https://github.com/awslabs/keras-apache-mxnet/blob/master/examples/imdb_lstm.py。将输入长度传输到嵌入层,按以下说明设置 unroll=True。

首先,在 DLAMI 的终端会话中,从 Keras-MXNet repo 文件夹中下载示例脚本:

$ wget https://raw.githubusercontent.com/awslabs/keras-apache-mxnet/master/examples/imdb_lstm.py

然后,打开脚本,跳至下列行进行 review:

model.add(Embedding(max_features, 128, input_length=maxlen))
model.add(LSTM(128, unroll=True))

现在,示例脚本已经过修改,可与 MXNet 后端兼容,你可以运行以下行:

$ python imdb_lstm.py

(可选)训练过程中使用 nvidia-smi 命令检查 GPU 利用和内存使用。打开另一个终端会话进行该操作。

基准

为了帮助大家评估不同 Keras 后端的性能,AWS 向 Keras-MXNet 添加了一个基准模块。按表中描述在 CPU、单个 GPU 和多 GPU 上使用不同的模型和数据集,你会发现 Keras-MXNet 训练 CNN 的速度更快,且在多个 GPU 上实现高效的性能提升。详见训练速度柱状图。关于如何运行基准脚本以及生成详细的基准结果,详见 Keras Benchmarks readme 文档:https://github.com/awslabs/keras-apache-mxnet/tree/master/benchmark。

基准配置

  • Keras Version 2.1.6
  • MXNet Version 1.2.0
  • Image Data Format: Channel first

训练 CIFAR10 数据集导致子线性缩放,因为该数据集图像更小。CIFAR10 数据集包含 5 万张图像,每张图像的大小是 32×32 像素。使用四个 GPU 传输这些小图像所需的通信开销比使用八个 GPU 的开销高。ImageNet 和合成数据数据集更好地展示了 Keras-MXNet 可能带来的性能改进。详见下表。

使用 Keras-MXNet 的图像处理速度对比

接下来

尝试其他的 Keras-MXNet 教程或阅读版本注释。

  • Keras-MXNet 教程地址:https://github.com/awslabs/keras-apache-mxnet/tree/master/docs/mxnet_backend
  • 版本注释:https://github.com/awslabs/keras-apache-mxnet/releases/tag/v2.1.6

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-05-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏TensorFlow从0到N

TensorFlow从0到1 - 5 - TensorFlow轻松搞定线性回归

上一篇 第一个机器学习问题 其实是一个线性回归问题(Linear Regression),呈现了用数据来训练模型的具体方式。本篇从平行世界返回,利用Tenso...

3538
来自专栏iOSDevLog

Core ML 2有什么新功能

Core ML是Apple的机器学习框架。仅在一年前发布,Core ML为开发人员提供了一种方法,只需几行代码即可将强大的智能机器学习功能集成到他们的应用程序中...

772
来自专栏企鹅号快讯

能在不同的深度学习框架之间转换模型?微软的MMdnn做到了

Microsoft/MMdnn:深度学习框架随心切换 学习深度学习的各位同学都希望自己的模型能在不同的深度学习框架之间随意转换,比如,斯坦福大学CVGL实验室的...

4755
来自专栏AI科技大本营的专栏

能在不同的深度学习框架之间转换模型?微软的MMdnn做到了

Microsoft/MMdnn:深度学习框架随心切换 学习深度学习的各位同学都希望自己的模型能在不同的深度学习框架之间随意转换,比如,斯坦福大学CVGL实验室的...

37611
来自专栏人工智能

TensorFlow实战——图像分类神经网络模型

Learn how to classify images with TensorFlow 使用TensorFlow创建一个简单而强大的图像分类神经网络模型 by...

3476
来自专栏ATYUN订阅号

自相关与偏自相关的简单介绍

自相关和偏自相关图在时间序列分析和预测中经常使用。这些图生动的总结了一个时间序列的观察值与他之前的时间步的观察值之间的关系强度。初学者要理解时间序列预测中自相关...

4784
来自专栏深度学习之tensorflow实战篇

关于决策树ID3算法,熵,信息增益率的权威解释,稍后奉上python代码

决策树分类算法概述 决策树算法是从数据的属性(或者特征)出发,以属性作为基础,划分不同的类。 看了本书,叫知识发现,内容很好,果断扫描 这里...

3064
来自专栏人工智能

使用10几行Python代码,快速建立视觉模型识别图像

视觉 进化的作用,让人类对图像的处理非常高效。 这里,我给你展示一张照片。 ? 如果我这样问你: 你能否分辨出图片中哪个是猫,哪个是狗? 你可能立即会觉得自己遭...

2669
来自专栏ATYUN订阅号

使用Python进行人脸聚类的详细教程

思考下面这个场景:两名劫匪在抢劫波士顿或纽约等繁华城市的银行。银行的安全摄像头工作正常,捕捉到了抢劫行为,但劫匪戴着头套,没办法看到他们的脸。

1502
来自专栏机器学习算法与理论

调用Dlib库进行人脸关键点标记

       昨天调试了人脸识别(classifier_webcam)这个程序,效果不错,响应速度也挺快。按照http://blog.csdn.net/u011...

3799

扫码关注云+社区