开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Keras模型不能并行到多个GPU

Keras是一个开源的深度学习框架，它提供了简单易用的API，可以方便地构建和训练神经网络模型。然而，Keras在默认情况下不支持将模型并行地运行在多个GPU上。

在深度学习中，通常会使用多个GPU来加速模型的训练过程，特别是当模型非常大或者数据集非常庞大时。为了实现模型的多GPU并行运行，可以使用一些其他的深度学习框架，如TensorFlow或PyTorch。

在TensorFlow中，可以使用tf.distribute.Strategy来实现模型的多GPU并行运行。tf.distribute.Strategy提供了多种分布式训练策略，包括MirroredStrategy、MultiWorkerMirroredStrategy和TPUStrategy等。其中，MirroredStrategy是一种常用的策略，它可以将模型的副本分布在多个GPU上，并自动处理数据的分发和梯度的聚合。

在PyTorch中，可以使用torch.nn.DataParallel或torch.nn.parallel.DistributedDataParallel来实现模型的多GPU并行运行。torch.nn.DataParallel可以在单个机器上的多个GPU上运行模型，而torch.nn.parallel.DistributedDataParallel可以在多台机器上的多个GPU上运行模型。

总结起来，如果想要将Keras模型并行地运行在多个GPU上，可以考虑使用其他深度学习框架，如TensorFlow或PyTorch，并利用它们提供的分布式训练策略来实现多GPU并行运行。

相关搜索:Keras不能正确预测多个输出 Keras如何编写并行模型，用于多类预测 Keras模型不能预测测试集中的值 Keras模型始终只使用一个GPU Tensorflow Keras -并行向多个模型层提供输入 Tensorflow:如何为多GPU模型并行编写干净的代码？使用Keras GPU训练模型后，内存已满，无法清除在Apache Spark中并行训练Keras模型在keras中连接多个CNN模型在python中并行训练两个keras模型

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

PyTorch分布式训练简介

分布式训练已经成为如今训练深度学习模型的一个必备工具，但pytorch默认使用单个GPU进行训练，如果想用使用多个GPU乃至多个含有多块GPU的节点进行分布式训练的时候，需要在代码当中进行修改，这里总结一下几种使用pytorch进行分布式训练的方式。

02

在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练

先进的深度学习模型参数正以指数级速度增长:去年的GPT-2有大约7.5亿个参数，今年的GPT-3有1750亿个参数。虽然GPT是一个比较极端的例子但是各种SOTA模型正在推动越来越大的模型进入生产应用程序，这里的最大挑战是使用GPU卡在合理的时间内完成模型训练工作的能力。

02

Pytorch 高效使用GPU的操作

深度学习涉及很多向量或多矩阵运算，如矩阵相乘、矩阵相加、矩阵-向量乘法等。深层模型的算法，如BP，Auto-Encoder，CNN等，都可以写成矩阵运算的形式，无须写成循环运算。然而，在单核CPU上执行时，矩阵运算会被展开成循环的形式，本质上还是串行执行。GPU（Graphic Process Units，图形处理器）的众核体系结构包含几千个流处理器，可将矩阵运算并行化执行，大幅缩短计算时间。随着NVIDIA、AMD等公司不断推进其GPU的大规模并行架构，面向通用计算的GPU已成为加速可并行应用程序的重要手段。得益于GPU众核（many-core）体系结构，程序在GPU系统上的运行速度相较于单核CPU往往提升几十倍乃至上千倍。

03

GPU捉襟见肘还想训练大批量模型？谁说不可以

2018 年的大部分时间我都在试图训练神经网络时克服 GPU 极限。无论是在含有 1.5 亿个参数的语言模型（如 OpenAI 的大型生成预训练 Transformer 或最近类似的 BERT 模型）还是馈入 3000 万个元素输入的元学习神经网络（如我们在一篇 ICLR 论文《Meta-Learning a Dynamical Language Model》中提到的模型），我都只能在 GPU 上处理很少的训练样本。

03

Pytorch 分布式模式介绍

数据较多或者模型较大时，为提高机器学习模型训练效率，一般采用多GPU的分布式训练。

04

【经验分享】如何使用keras进行多主机分布式训练

由于一般GPU的显存只有11G左右，（土豪误入），采用多主机分布式训练是非常有必要的；折腾了几天，按照谷歌的教程，终于搞清楚了，给大家梳理一下：

02

简单粗暴上手TensorFlow 2.0，北大学霸力作，必须人手一册！

这是一本简明的 TensorFlow 2.0 入门指导手册，基于 Keras 和 Eager Execution（即时运行）模式，力图让具备一定机器学习及 Python 基础的开发者们快速上手 TensorFlow 2.0。

04

使用RaySGD更快，更便宜的PyTorch

分发深度学习模型训练已经成为何时进行训练的问题，而不是如果这样做。最先进的ML模型（例如BERT）具有数亿个参数，而在一台机器上训练这些大型网络将花费数天甚至数周的时间。

02

PyTorch算法加速指南

原标题 | Speed Up your Algorithms Part 1 — PyTorch

02

Pytorch 1.0正式版发布！TensorFlow王位不保？曾经Pytorch许诺的都实现了吗？

12月8日，在加拿大蒙特利尔召开的NeurIPS 2018会议上，Facebook 宣布正式推出 PyTorch 1.0 稳定版，在 Facebook code 博客上，也一并同步了这一消息。

02

PyTorch 1.6、TensorFlow 2.3、Pandas 1.1同日发布！都有哪些新特性？

7月29日，PyTorch 1.6、TenorFlow 2.3、Pandas 1.1恰巧同时发布。这三个库都是定期滚动更新，大约每个季度更新一次小版本。

04

Keras vs tf.keras: 在TensorFlow 2.0中有什么区别?

在本文中，您将发现Keras和tf.keras之间的区别，包括TensorFlow 2.0中的新增功能。

03

PyTorch系列 | 如何加快你的模型训练速度呢？

原题 | Speed Up your Algorithms Part 1 — PyTorch

03

PyTorch常见的坑汇总

最近刚开始用pytorch不久，陆陆续续踩了不少坑，记录一下，个人感觉应该都是一些很容易遇到的一些坑，也在此比较感谢帮我排坑的小伙伴，持续更新，也祝愿自己遇到的坑越来越少。

05

TensorFlow 2.0中的tf.keras和Keras有何区别？为什么以后一定要用tf.keras？

通过本教程，你可以了解 Keras 和 tf.keras 之间的区别，以及 TensorFlow 2.0 的新特性。本教程的灵感来自于上周二我在 PyImageSearch 阅读器上收到的一封邮件。

03

PyTorch多GPU并行训练方法及问题整理

以下都在Ubuntu上面进行的调试, 使用的Ubuntu版本包括14, 18LST

03

《Scikit-Learn、Keras与TensorFlow机器学习实用指南（第二版）》第19章规模化训练和部署TensorFlow模型

有了能做出惊人预测的模型之后，要做什么呢？当然是部署生产了。这只要用模型运行一批数据就成，可能需要写一个脚本让模型每夜都跑着。但是，现实通常会更复杂。系统基础组件都可能需要这个模型用于实时数据，这种情况需要将模型包装成网络服务：这样的话，任何组件都可以通过REST API询问模型。随着时间的推移，你需要用新数据重新训练模型，更新生产版本。必须处理好模型版本，平稳地过渡到新版本，碰到问题的话需要回滚，也许要并行运行多个版本做AB测试。如果产品很成功，你的服务可能每秒会有大量查询，系统必须提升负载能力。提升负载能力的方法之一，是使用TF Serving，通过自己的硬件或通过云服务，比如Google Cloud API平台。TF Serving能高效服务化模型，优雅处理模型过渡，等等。如果使用云平台，还能获得其它功能，比如强大的监督工具。

02

Pytorch 分布式训练

即进程组。默认情况下，只有一个组，一个 job 即为一个组，也即一个 world。

03

TensorFlow2.1正式版上线：最后一次支持Python2，进一步支持TPU

去年 10 月，谷歌才发布了 TensorFlow 2.0 正式版。时隔三个月后，昨日官方发布了 TensorFlow 2.1，本次版本更新带了了多项新特性、功能改进和 bug 修复。

03

5行代码秀碾压，比Keras还好用的fastai来了，尝鲜PyTorch 1.0必备伴侣

在今天的F8（Facebook开发者大会）上，深度学习框架PyTorch 1.0 rc1版如期发布。然而在海外的论坛上，另一个开源库的关注度不遑多让。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭