使用TensorFlow2.2中的MirrorStrategy进行分布式训练，但自定义训练循环不起作用-更新梯度时卡住

TensorFlow是一个开源的机器学习框架，TensorFlow 2.2版本引入了MirrorStrategy来支持分布式训练。MirrorStrategy是一种数据并行的分布式训练策略，它可以在多个设备上复制模型，并在每个设备上处理不同的训练数据。然后，通过聚合各个设备上的梯度来更新模型参数。

在使用MirrorStrategy进行分布式训练时，如果自定义训练循环不起作用并且在更新梯度时卡住，可能有以下几个原因和解决方法：

检查代码逻辑：确保在自定义训练循环中正确地定义了训练步骤和梯度更新操作。可以参考TensorFlow官方文档或示例代码来确保正确性。
检查设备配置：确保每个设备上的TensorFlow版本一致，并且设备之间的网络连接正常。还要确保每个设备上的资源（如GPU、内存）足够支持分布式训练。
检查数据分布：MirrorStrategy要求将训练数据均匀分布在各个设备上。如果数据分布不均匀，可能导致某些设备上的训练步骤较慢，从而导致更新梯度时卡住。可以考虑对数据进行重新分配或使用数据并行的其他策略。
检查模型定义：确保模型定义与MirrorStrategy兼容。某些操作可能不支持分布式训练，需要进行相应的修改或替换。
检查TensorFlow版本：确保使用的TensorFlow版本与MirrorStrategy兼容。如果版本不匹配，可能会导致一些功能无法正常工作。

总结起来，当使用TensorFlow2.2中的MirrorStrategy进行分布式训练时，如果自定义训练循环不起作用并且在更新梯度时卡住，需要检查代码逻辑、设备配置、数据分布、模型定义和TensorFlow版本等方面的问题，并进行相应的调整和修复。

页面内容是否对你有帮助？

有帮助

没帮助

使用TensorFlow2.2中的MirrorStrategy进行分布式训练，但自定义训练循环不起作用-更新梯度时卡住

tensorflow、keras、deep-learning、parallel-processing、tensorflow2.0

我正在使用tf.distribute.Strategy来训练一个基于unet的模型，使用两个(或更多) gpus上的MirrorStrategy。下面是我的自定义训练循环的代码，我将其用于网络的向前和向后传递。由于某些原因，计算了第一个时期的第一批的logits、损失和梯度，但随后它在optimizer.app

浏览 147提问于2020-06-13得票数 4

1回答

如何在TF2.0/1.14.0中利用分布式训练进行梯度积累--急切的定制训练循环(梯度磁带)？

tensorflow、tensorflow2.0、tf.keras

背景:我有一个模型，我试图将它移植到TF 2.0，以获得一些甜蜜的渴望执行，但我似乎不知道如何进行分布式培训(4个GPU)，同时执行梯度积累。问题：我需要能够使用带有梯度磁带的自定义训练循环，因为我有一个复杂的多模型问题(几个输入模型和输出模型一起训练)，我不需要二阶梯度。以我的型号(中等大小的变压器)的

浏览 0提问于2019-06-27得票数 14

2回答

使用tf.estimator进行分布式培训，从而产生更多的培训步骤

python、tensorflow、google-cloud-ml-engine

我在Cloud引擎上尝试分布式训练选项，并观察到一些特殊的结果。我基本上修改了人口普查自定义估计器示例，以包含一个略有不同的模型，并将我的损失函数更改为AdamOptimizer，作为唯一的真正更改。在我的实验中，我有650 K的训练例子，我正在进行以下实验，为期一个时期，批次大小为128。给定650 k训练示例和128批大小，我预计在一个时代将有~5.1k步。*

浏览 5提问于2017-08-31得票数 2

回答已采纳

1回答

分布式Tensorflow:谁应用参数更新？

tensorflow、machine-learning

我使用过TensorFlow，但对于用于训练模型的分布式TensorFlow来说，我还是新手。我的理解是，当前的最佳实践倾向于使用异步更新的数据并行模型：谷歌大脑小组在2016年4月发表的一篇论文对各种方法进行了基准测试，发现使用几个备用副本进行同步更新的数据并行是最有效的，不仅收敛速度更快现在，我在进一步

浏览 0提问于2018-07-31得票数 13

1回答

依赖于随机梯度下降的ML模型的并行化？

parallel-processing、nlp、word2vec

我一直在阅读不同的自然语言处理模型，如word2vec和GloVe，以及如何将这些模型并行化，因为它们大多只是点积。然而，我对此有点困惑，因为计算梯度和更新模型依赖于参数/向量的当前值。这是如何以并行/异步方式完成的？如何知道何时使用每个线程随机计算的梯度更新全局参数？

浏览 0提问于2021-02-20得票数 1

1回答

如何使用1个以上的GPU训练PyTorch迁移学习教程

python、python-3.x、jupyter-notebook、jupyter、pytorch

我目前正在关注中的PyTorch迁移学习教程我正在使用谷歌云平台笔记本实例，并使用4个NVIDIA Tesla k80 x 4GPU。正是在这里，当我在超过1个GPU上训练网络时，遇到了服务器连接错误(无效响应: 504)错误num_ftrs =model_ft = train_model(model_ft, criterion, optimize

浏览 1提问于2019-08-08得票数 1

2回答

反向传播如何与反向自动分化相同(或不相同)？

algorithm、neural-network、backpropagation、calculus、automatic-differentiation

有这样的主张：更新：，自从写这篇文章以来，我发现这在“深度学习”6.5.9节中有介绍。见。我还发现，这篇论文对Haber和Ruthotto的“

浏览 4提问于2014-05-06得票数 14

回答已采纳

1回答

批处理GD和随机GD是否给出相同的结果？

machine-learning、neural-network、gradient-descent

如果对N个年代的M样本数据集进行神经网络训练，批GD和SGD是否给出了相同的结果？SGD是因为更好地利用硬件而更快吗？我问这个问题是因为我发现两者(批处理GD和SGD)在数学上都给出了相同的结果，但是我读到SGD避免了局部极小值，如果SGD和批GD给出相同的结果，这怎么可能是真的！？ 📷

浏览 0提问于2020-07-17得票数 2

1回答

如何在tf.keras.Model中禁用Dropout以使用传输学习生成激活最大化图像

tensorflow2.0、tf.keras

我正在使用转移学习和keras.applications.InceptionV3。我成功地训练了这个模型。然而，当我想要生成“激活最大化”映像(例如，最大限度地激活自定义类的输入映像，参考 )时，我很难使用预先训练过的模型，因为我确实能够在“适合”模式下使用它，并且禁用所有的辍学等等。我所做的是将tf.keras.Sequential中的预训练模型组合起来，对第一

浏览 2提问于2019-11-22得票数 0

1回答

你能总结渐变并成批应用吗？

machine-learning、tensorflow、backpropagation

在那里，训练数据是在一集中收集的。当插曲完成时，数据被用来进行反向传播。但是，没有将计算出的梯度应用到模型中，而是将它们存储在缓冲区中。在应用之前，会对多集的梯度进行汇总。我不知道这样做是否合理。通常情况下，如果模型在第一集数据训练后非常好，则其他集的梯度将接近0(没有变化)。如果您使用教程代码，那么所有情节

浏览 0提问于2018-04-26得票数 0

1回答

如何在分布式Tensorflow中实现"DistBelief“架构

python、tensorflow、distributed

当前的分布式Tensorflow的体系结构是基于“类似参数服务器”的框架。原因是每个工人没有存储在"PS“中的那些”变量“的本地副本，这实际上在训练期间引入了更多的通信，以从"PS”检索变量，计算中间结果并将它们发送回"PS“以更新这些张量”变量“。现在，如果我们不遵循规则，我们将采用"DistBelief“架构:所有共享参数(如神经网络权重)仍然放在"PS”上，<e

浏览 0提问于2017-10-07得票数 0

6回答

梯度下降和随机梯度下降有什么区别？

machine-learning、neural-network、deep-learning、gradient-descent

梯度下降和随机梯度下降有什么区别？我对这些不太熟悉，你能用一个简短的例子来描述这种差异吗？

浏览 0提问于2018-08-04得票数 75

1回答

Keras模型参数都是重新加载后的“NaN”。

python、tensorflow、machine-learning、keras、transfer-learning

我使用转移学习与Resnet50。我用Keras (“imagenet”)提供的预培训模型创建了一个新模型。:\n",如果我只为一个时代训练我的网络但是，如果我将我的模型训练18个时期(因为我有一台非常慢的计算机，这需要5-6个小时)，我只看到NaN值

浏览 0提问于2018-07-11得票数 0

回答已采纳

1回答

在Google Colab中使用多个GPU的Tensorflow中的分布式训练

tensorflow、gpu、distributed-computing、google-colaboratory

最近，我对将分布式培训整合到我的Tensorflow项目中产生了兴趣。我正在使用Google Colab和Python3来实现一个带有定制的、分布式的训练循环的神经网络，如本指南中所述：在“创建分发变量和图形策略”部分的指南中，有一些代码的图片，这些代码基本上设置了一个据我所知，输出表明MirroredStrategy只创建了模型的一个副本，因此，只有一个GPU将用于训练

浏览 8提问于2019-09-19得票数 5

2回答

在神经网络中如果不能进行大批处理，如何进行补偿？

neural-network、deep-learning、artificial-intelligence、pytorch

原始代码使用的批处理大小为128和4个GPUS。我只有两个gpus，所以我无法匹配他们的杆菌号。不管怎么说，我可以批量补偿这个差额。我在某个地方看到iter_size可以根据公式effective_batchsize= batch_size*iter_size*n_gpu进行补偿。这个公式中的iter_size是什么？我用的是PYthorch，而不是咖啡。

浏览 1提问于2018-09-26得票数 0

回答已采纳

2回答

每一个时代的最后一步花费的时间太长了。

deep-learning、keras

当我运行model.fit_generator(...)时，它以每秒1步的速度运行，但最后一步需要几分钟。

浏览 4提问于2017-12-26得票数 1

回答已采纳

1回答

尝试运行分布式GCMLE作业时遇到抢占操作系统错误

tensorflow、google-cloud-platform、google-cloud-ml

Error: OS Error 训练器包是一个自定义估计器，它与cloudml-samples普查自定义估计器( )一样建模。如果我将我的模型配置为使用单个standard_p100 GPU运行，我可以以大约15步/秒的速度进行训练。有没有人在尝试训练分布式ml引擎作业时遇到过类似的抢占性问题？关于如何更好地调试这个问题，有什么建议吗？要从日志中添加更多的</e

浏览 0提问于2018-10-13得票数 8

2回答

TensorFlow MNIST DataSet

python、tensorflow

我是从读一本书开始学习TensorFlow的，这本书是从对MNIST数字进行分类开始的。Y[i], keep_prob: 1.0}) for i in range(10)]) 这是执行会话的代码块我的问题是- for循环迭代步骤次数，而batch是大小为50的最小批量。难道我们不应该在整个训练集上迭代步骤次数吗？这段代码在一个时期内

浏览 2提问于2018-04-15得票数 0

1回答

分批训练会导致更多的过度适应。

python、machine-learning、neural-network、pytorch、training-data

我正在训练序列序列( sequence，seq2seq)模型，我有不同的值来训练input_sequence_length。对于值10和15，我得到了可以接受的结果，但是当我尝试使用20训练时，我得到了内存错误，所以我将训练改为批量训练，但是模型过拟合和验证损失会爆炸，即使有累积的梯度，我也会得到相同的行为，所以我正在寻找更准确的方法来进行<em

浏览 1提问于2020-04-09得票数 2

回答已采纳

1回答

梯度分布上的TensorBoard尖峰

tensorflow、histogram、distribution、tensorboard

我正在训练一个自定义的短网络，使用Keras (2.1.6)和Tensorflow (1.4.0)作为后端。在训练时，我使用tensorboard回调作为： log_dir=OUTPUT_PATH, batch_size=BATCH_SIZE,这会产生预期<em

浏览 0提问于2018-04-27得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用TensorFlow2.2中的MirrorStrategy进行分布式训练，但自定义训练循环不起作用-更新梯度时卡住

相关·内容

使用TensorFlow2.2中的MirrorStrategy进行分布式训练，但自定义训练循环不起作用-更新梯度时卡住

如何在TF2.0/1.14.0中利用分布式训练进行梯度积累--急切的定制训练循环(梯度磁带)？

使用tf.estimator进行分布式培训，从而产生更多的培训步骤

分布式Tensorflow:谁应用参数更新？

依赖于随机梯度下降的ML模型的并行化？

如何使用1个以上的GPU训练PyTorch迁移学习教程

反向传播如何与反向自动分化相同(或不相同)？

批处理GD和随机GD是否给出相同的结果？

如何在tf.keras.Model中禁用Dropout以使用传输学习生成激活最大化图像

你能总结渐变并成批应用吗？

如何在分布式Tensorflow中实现"DistBelief“架构

梯度下降和随机梯度下降有什么区别？

Keras模型参数都是重新加载后的“NaN”。

在Google Colab中使用多个GPU的Tensorflow中的分布式训练

在神经网络中如果不能进行大批处理，如何进行补偿？

每一个时代的最后一步花费的时间太长了。

尝试运行分布式GCMLE作业时遇到抢占操作系统错误

TensorFlow MNIST DataSet

分批训练会导致更多的过度适应。

梯度分布上的TensorBoard尖峰

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐