开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用TensorFlow2.2中的MirrorStrategy进行分布式训练，但自定义训练循环不起作用-更新梯度时卡住

TensorFlow是一个开源的机器学习框架，TensorFlow 2.2版本引入了MirrorStrategy来支持分布式训练。MirrorStrategy是一种数据并行的分布式训练策略，它可以在多个设备上复制模型，并在每个设备上处理不同的训练数据。然后，通过聚合各个设备上的梯度来更新模型参数。

在使用MirrorStrategy进行分布式训练时，如果自定义训练循环不起作用并且在更新梯度时卡住，可能有以下几个原因和解决方法：

检查代码逻辑：确保在自定义训练循环中正确地定义了训练步骤和梯度更新操作。可以参考TensorFlow官方文档或示例代码来确保正确性。
检查设备配置：确保每个设备上的TensorFlow版本一致，并且设备之间的网络连接正常。还要确保每个设备上的资源（如GPU、内存）足够支持分布式训练。
检查数据分布：MirrorStrategy要求将训练数据均匀分布在各个设备上。如果数据分布不均匀，可能导致某些设备上的训练步骤较慢，从而导致更新梯度时卡住。可以考虑对数据进行重新分配或使用数据并行的其他策略。
检查模型定义：确保模型定义与MirrorStrategy兼容。某些操作可能不支持分布式训练，需要进行相应的修改或替换。
检查TensorFlow版本：确保使用的TensorFlow版本与MirrorStrategy兼容。如果版本不匹配，可能会导致一些功能无法正常工作。

总结起来，当使用TensorFlow2.2中的MirrorStrategy进行分布式训练时，如果自定义训练循环不起作用并且在更新梯度时卡住，需要检查代码逻辑、设备配置、数据分布、模型定义和TensorFlow版本等方面的问题，并进行相应的调整和修复。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

使用 TensorFlow 进行分布式训练

在tf.keras.Model.fit 中使用 4. 在自定义训练循环中使用 5....在同步训练中，所有工作进程都同步地对输入数据的不同片段进行训练，并且会在每一步中聚合梯度。在异步训练中，所有工作进程都独立训练输入数据并异步更新变量。...如果一个用例没有被涵盖，您应该使用 Keras 或自定义训练循环。...如果您需要更多使用 Estimator 或 Keras 时的灵活性和对训练循环的控制权，您可以编写自定义训练循环。例如，在使用 GAN 时，您可能会希望每轮使用不同数量的生成器或判别器步骤。...使用这些方法可能需要在开始时对代码进行轻微重构，但完成重构后，您只需更改策略实例就能够在 GPU、TPU 和多台机器之间进行切换。

1.4K2 0

腾讯太极机器学习平台|大规模训练加速框架Light 在广告粗排场景的落地

在这种模式下，每个 worker 上有全量的参数，各个 worker 完成一个 batch 数据的前向计算并得到所有 variables 的相应梯度后，基于 NCCL 进行梯度规约通信，并将获得的梯度更新到本地的参数上...T4 机器上线训练：针对广告推荐场景中明显 CPU bound 的情况，团队推动了 T4 推理机器的上线和置换，当使用拥有更多 CPU 核心数的机型进行训练时，线程间 CPU 抢占的情况能有所缓解，CPU...，管理维护都比较方便；但当模型变得越来越复杂时，成千上万行的配置文件使可读性急剧下降；用户无法使用条件判断、循环控制等基本编程语义，难以实现更灵活的模型逻辑；此外，若模型所需逻辑在预定义算子库中缺失，只能在框架层面添加新的算子...但其最大的问题在于反复拉起 MPI 训练程序、训练初始化阶段所产生的 overhead 耗时，特别在数据分钟级更新，每轮训练的实际训练时长都非常短时，这些 overhead 占总耗时的占比将变得非常大，...训练时 Evaluation 原系统下离线训练 (train) 与预估 (evaluate/calculate) 是分开进行的模式，但在落地过程中算法同学提出了在训练进行期间使用测试集进行 evaluate

1.5K3 0

TensorFlow和深度学习入门教程

现在您需要知道的是，训练循环如下所示：训练数据 => 更新权重和偏差 => 更好的识别 (循环这三步) 让我们逐个浏览可视化的六个面板，看看训练神经网络需要什么。 ?...总而言之，训练循环如下所示：训练数据和标签 => 求损失函数=> 求梯度 (偏导数) => 最快下降 => 更新权重和偏差 => 重复下一个小批量的图像数据和标签为什么要使用100个图像和标签，用这种...在此步骤中，TensorFlow计算相对于所有权重和所有偏差（梯度）的损失函数的偏导数。这是一个正式的推导，而不是一个数字化的，太费时间了。然后使用梯度来更新权重和偏差。0.003是学习率。...最后，现在是运行训练循环的时候了。到目前为止，所有的TensorFlow指令都已经在内存中准备了一个计算图，但还没有计算出来。...这些是不是局部最小值的点，但梯度仍然为零，梯度下降优化器仍然停留在那里。TensorFlow拥有一系列可用的优化器，其中包括一些可以使用一定惯量的优化器，并可以安全避开鞍点。

1.5K6 0

分布式训练 Parameter Sharding 之 Google Weight Sharding

副本使用自己得到的训练数据计算其局部梯度，然后进行彼此通信以获得合并的梯度，并用这个梯度对本地副本的权重变量应用相同的更新。...更高级的融合运算符使用方法是后端编译器在融合子计算中对运算符进行模式匹配，并生成语义上与原始实现等效的自定义实现。...在每个训练步骤中，每个副本使用训练输入批次中自己对应的分区来计算其局部梯度，然后所有副本使用all-reduce操作符来获得总梯度。...然而，这些变量仅在权重更新时由优化器使用，而在计算梯度的向前和向后过程中不需要。因此，一个优化的解决方案可以在迭代中保持辅助变量的分片，直到检查点或汇总阶段才进行all-gather。...虽然辅助变量仅在权重更新时用到，但现实的模型通常包括一些自定义逻辑，例如获取当前训练进度的摘要，该摘要可能使用变量的完整状态。

9712 0

TensorFlow和深度学习入门教程

现在您需要知道的是，训练循环如下所示：训练数据 => 更新权重和偏差 => 更好的识别 (循环这三步) 让我们逐个浏览可视化的六个面板，看看训练神经网络需要什么。 ?...总而言之，训练循环如下所示：训练数据和标签 => 求损失函数=> 求梯度 (偏导数) => 最快下降 => 更新权重和偏差 => 重复下一个小批量的图像数据和标签为什么要使用100个图像和标签，用这种...在此步骤中，TensorFlow计算相对于所有权重和所有偏差（梯度）的损失函数的偏导数。这是一个正式的推导，而不是一个数字化的，太费时间了。然后使用梯度来更新权重和偏差。0.003是学习率。...最后，现在是运行训练循环的时候了。到目前为止，所有的TensorFlow指令都已经在内存中准备了一个计算图，但还没有计算出来。...使用它，如果你不能写出来，被卡住了！

1.4K6 0

深度学习中训练参数的调节技巧

现象：观测训练产生的log时一开始并不能看到异常，loss也在逐步的降低，但突然之间NaN就出现了。措施：看看你是否能重现这个错误，在loss layer中加入一些输出以进行调试。...丢弃的神经元在训练阶段的前向传播和后向传播阶段都不起作用：因为这个原因，每当一个单一的神经元被丢弃时，训练阶段就好像是在一个新的神经网络上完成。...隐藏单元必须准备好进行模型之间的交换和互换。计算方便是Dropout的一个优点。训练过程中使用Dropout产生 n 个随机二进制数与状态相乘,每个样本每次更新只需 O(n)的计算复杂度。...Dropout的另一个显著优点是不怎么限制适用的模型或训练过程。几乎在所有使用分布式表示且可以用随机梯度下降训练的模型上都表现很好。...参数训练过程中多层之间协调更新的问题：在其他层不改变的假设下,梯度用于如何更新每一个参数。但是，一般情况下会同时更新所有层。

4.6K8 0

数据集暴增压力下，微信「扫一扫」识物训练如何优雅破局？

参数更新（1）同步更新所有 GPU 在同一时间点与参数服务器交换、融合梯度。在每轮训练的时候需要汇总所有 worker训练得到的梯度值，然后取平均值来更新参数服务器上的模型参数。 ...异步更新通信效率高速度快，但往往收敛不佳，因为一些速度慢的节点总会提供过时、错误的梯度方向。同步更新通信效率低，通常训练慢，但训练收敛稳定，因为同步更新基本等同于单卡调大的batch size训练。...但是传统的同步更新方法（各个GPU卡算好梯度，求和算平均的方式），在融合梯度时，会产生巨大的通信数据量。...在训练过程中，计算损失函数时需要涉及到allreduce操作，将所有worker的损失规约，然后再进行梯度传播。最后在保存模型时，只要指定一台机器保存模型即可。...在进行分布式训练时，每个机器都需要能够读取这些训练数据，图片文件存到微信自研分布式存储系统上。在训练时，分布式训练的加速比和GPU数目正相关。

1.9K1 0

Batch Normalization的诅咒

什么是Batch Normalization 在训练过程中，当我们更新之前的权值时，每个中间激活层的输出分布会在每次迭代时发生变化。这种现象称为内部协变量移位(ICS)。...在使用小batch size的时候不稳定如上所述，batch normalization必须计算平均值和方差，以便在batch中对之前的输出进行归一化。...在分布式训练的时候，大的batch最终将作为一组小batch分布在各个实例中。...原因是batch normalization需要通过输入数据进行两次迭代，一次用于计算batch统计信息，另一次用于归一化输出。训练和推理时不一样的结果例如，在真实世界中做“物体检测”。...在训练一个物体检测器时，我们通常使用大batch(YOLOv4和Faster-RCNN都是在默认batch大小= 64的情况下训练的)。但在投入生产后，这些模型的工作并不像训练时那么好。

8433 0

一文看尽深度学习RNN：为啥就它适合语音识别、NLP与机器翻译？

X(i)->y(i) 但将上一组样本中的一组补充到训练样本中，则是“非常规”的。比如循环神经网络。...权重爆炸可能导致权重不稳定，而在梯度弥散（消失）时，会造成学习跨越长时间滞后，并且需要花费过多的时间，甚至根本不起作用。 LSTM是一种基于梯度学习算法训练而来的新型循环网络架构。...存储单元块有助于信息存储; 跟传统的神经网络一样，在单个小区内对分布式输入进行编码并不容易。存储单元块在大小为1时将变成一个简单的存储单元。...LSTM的优势内存单元中反向传播的常数误差，赋予该架构桥接长时滞的算法的能力。 LSTM可近似于噪声问题域、分布式表示和连续值。 LSTM概述了要考虑的问题域。...GRU(和LSTM)RNN中的选通机制与RNN的参数化相似。使用BPTT随机梯度下降来最小化损失函数,以更新对应于这些门的权重。每个参数更新都将涉及与整个网络的状态有关的信息。

1.4K9 0

Batch Normalization的诅咒

什么是Batch Normalization 在训练过程中，当我们更新之前的权值时，每个中间激活层的输出分布会在每次迭代时发生变化。这种现象称为内部协变量移位(ICS)。...在使用小batch size的时候不稳定如上所述，batch normalization必须计算平均值和方差，以便在batch中对之前的输出进行归一化。...在分布式训练的时候，大的batch最终将作为一组小batch分布在各个实例中。...原因是batch normalization需要通过输入数据进行两次迭代，一次用于计算batch统计信息，另一次用于归一化输出。训练和推理时不一样的结果例如，在真实世界中做“物体检测”。...在训练一个物体检测器时，我们通常使用大batch(YOLOv4和Faster-RCNN都是在默认batch大小= 64的情况下训练的)。但在投入生产后，这些模型的工作并不像训练时那么好。

3554 0

为何RNN能够在众多机器学习方法中脱颖而出？（附指南）

并不是所有的连接都会被训练，并且误差导数的极端非线性意味着传统的反向传播将不起作用，因此该网络采用BPTT（通过时间的反向传播算法）或随机梯度下降。...递归循环网络递归神经网络是递归网络的线性架构变体。递归促进了分层特征空间中的分支，同时，由此产生的网络架构在训练进行时模仿它。通过梯度梯度方法实现训练。该网络在2011年由R....LSTM是一种具有一定的基于梯度的学习算法的新型循环网络架构训练； LSTM旨在克服误差回流问题。...使用BPTT随机梯度下降来更新对应于这些门的权重，因为它试图使成本函数最小化。每个参数更新将涉及与整个网络的状态有关的信息。这可能会产生不利影响。...这可能解释了在栅极信号中单独使用偏置的相对成功，因为其可自适应更新携带有关网络状态的信息。门控变体探索出了门控机制，并对拓扑结构进行了有限的评估。

1.1K5 0

我的神经网络不工作了！我应该做什么? 详细解读神经网络的11种常见问题

“当你正在深入研究深度学习的下一个重大突破时，或许会遇到一个不幸的挫折:你的神经网络不起作用。你去找你的老板/主管，但他们也不知道如何去解决这个问题——他们和你一样都是新手。那么现在该怎么办呢?”...首先，它可以帮助训练“跳出”原本可能被卡住的局部极小值，其次它可以使训练在“更平坦”的最小值中得到满足，这通常意味着更好的泛化性能。 -还要考虑数据中的其他一些元素有时可以有效地充当批处理大小。...例如，处理图像的分辨率是以前的两倍，会产生把批处理大小×4的效果。为了对此进行直观的理解，请考虑在CNN中，每一个过滤器的权重更新将被平均用于输入图像的所有像素，以及在批处理中的每一个图像。...总的来说，重要的是要考虑在每次迭代中，最终的梯度更新将会被平均多少，并且确保你平衡了与使用尽可能多的GPU的潜在并行性所带来的不利影响。...神经网络中的许多其他组件都假设了某种形式的正确或标准化的权重初始化，并将权重设置为零，使用自定义的随机初始化是不可行的。 -如何解决?

1.7K3 0

学界 | 深度梯度压缩：降低分布式训练的通信带宽

图 1：深度梯度压缩可以减少通信时间、提高可扩展性和加速分布式训练我们通过仅发送重要梯度的方式减少了通信带宽（稀疏更新）。我们使用了梯度幅度作为重要性的简单指示：只有大于一个阈值的梯度才会被传输。...在使用深度梯度压缩时，ResNet-110 的准确度得到了完全保持。 ? 图 3：ResNet 在图像分类任务中的学习曲线（梯度稀疏度为 99.9％） ?...表 4：使用 4 个节点的语言建模和语音识别的训练结果对于语言建模，图 4 给出了在梯度稀疏度为 99.9％时，使用 4 个节点训练得到的语言模型的困惑度和训练损失。...id=SkhQHMW0W 摘要：大规模分布式训练需要显著的通信带宽来进行梯度交换，这会限制多节点训练的可扩展性并且需要昂贵的高带宽网络基础设施。...当在移动设备上进行分布式训练（federated learning）时，情况甚至更加糟糕，会遭遇更高的延迟、更低的吞吐量和断断续续的糟糕连接的问题。

1.9K12 0

GPU捉襟见肘还想训练大批量模型？谁说不可以

在一个或多个 GPU 上训练大批量模型你建的模型不错，在这个简洁的任务中可能成为新的 SOTA，但每次尝试在一个批量处理更多样本时，你都会得到一个 CUDA RuntimeError：内存不足。...这对很多分类问题来说是件好事，但如果你在大批量上训练语言模型时，这就会成为问题。我们可以快速计算语言模型输出的大小： ? 语言模型输出中的元素数量。...当多个并行前向调用由单个解释器驱动时，在前向传播中大量使用 Python 循环/调用的模型可能会被 Python 解释器的 GIL 放慢速度。...在这篇文章中，我将选择一种简单的开箱即用的方式来使用它，但你应该阅读文档和 Séb Arnold 写的教程来深入理解这个模块。...以下是更新后的代码：启动 Python 训练脚本的多个实例我们就快完成了，只需要在每个服务器上启动训练脚本的一个实例。

1.5K3 0

在tensorflow2.2中使用Keras自定义模型的指标度量

使用Keras和tensorflow2.2可以无缝地为深度神经网络训练添加复杂的指标 Keras对基于DNN的机器学习进行了大量简化，并不断改进。...在本文中，我将使用Fashion MNIST来进行说明。然而，这并不是本文的唯一目标，因为这可以通过在训练结束时简单地在验证集上绘制混淆矩阵来实现。...在训练中获得班级特定的召回、精度和f1至少对两件事有用: 我们可以看到训练是否稳定，每个类的损失在图表中显示的时候没有跳跃太多我们可以使用一些技巧-早期停止甚至动态改变类权值。...还有一个关联predict_step，我们在这里没有使用它，但它的工作原理是一样的。我们首先创建一个自定义度量类。...由于tensorflow 2.2，可以透明地修改每个训练步骤中的工作（例如，在一个小批量中进行的训练），而以前必须编写一个在自定义训练循环中调用的无限函数，并且必须注意用tf.功能启用自动签名。

2.5K1 0

分布式深度学习最佳入门（踩坑）指南

如未涵盖某一用例，建议您使用 Keras 或自定义训练循环。...因为通常在数据并行模式(同步)下，需要将各个机器节点上的梯度发送至master机器节点，进行汇总求和，之后经分布式optimizer处理更新梯度后，将新的模型参数广播至各机器节点。...的梯度且应用这些梯度进行权重更新。...对于上层用户，使用oneflow进行分布式进行却异常简单，实际上，在oneflow中无需改动原有代码，只需要简单的几行配置,即可完美支持分布式训练，下面我们看一下示例。...，相信你已经具备了进行分布式训练的能力，在刚参与 DLPerf 时，我也是这样想的，直到多次跪倒在实际训练中。

3.3K2 0

在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练

这篇文章是使用torch.nn.parallel.DistributedDataParallel API在纯PyTorch中进行分布式训练的简介。...在研究分布式和数据并行之前，我们需要先了解一些关于分布式训练的背景知识。目前普遍使用的分布式训练基本上有两种不同形式:数据并行化和模型并行化。在数据并行化中，模型训练作业是在数据上进行分割的。...作业中的每个GPU接收到自己独立的数据批处理切片。每个GPU使用这些数据来独立计算梯度更新。...(同步步骤在技术上是可选的，但理论上更快的异步更新策略仍是一个活跃的研究领域) 在模型并行化中，模型训练作业是在模型上进行分割的。工作中的每个GPU接收模型的一个切片，例如它的层的一个子集。...这些过程是独立执行的，并且不能保证训练循环中任一点处于什么状态。所以这里需要对初始化过程进行一些仔细的更改。（1）任何下载数据的方法都应隔离到主进程中。

3.4K2 0

LLM 盛行，如何优雅地训练大模型？

AMP典型的是使用上图的O2部分，即使用混合精度训练不仅可以提高乘法运算过程中的效率问题，还有效避免累加时的舍入误差问题。...DeepSpeed是由微软开源的分布式训练加速框架，其使用了一种称为零冗余（ZeRO）的显存优化技术。本质上，它是一种数据并行的分布式训练策略，重点优化了数据并行中的显存占用问题。...（紫色部分）：在梯度更新阶段，对所有卡上的梯度进行平均处理，然后各张卡独立地进行梯度更新，并保存当前的优化器状态信息（浅蓝色部分）：（2）DeepSpeed ZeRO并行训练 DeepSpeed...在训练时，只需要对红色部分的参数进行训练和梯度计算保存，因此大大降低了训练过程中的开销。...十、梯度检查点（Gradient Checkpointing）回顾一下在“DeepSpeed分布式训练”章节中普通的分布式数据并行梯度更新的过程，通常是在前向传播过程中，顺便把每一个参数的梯度预先计算好

1.6K3 0

PyTorch 分布式(8) -------- DistributedDataParallel之论文篇

尽管该技术概念简单，但计算和通信之间的微妙依赖性使得优化分布式训练效率非常重要。...典型的训练迭代包括使用输入和标签生成损失的前向传递，计算参数梯度的后向传递，以及使用梯度更新参数的优化器步骤。...更具体地说，在向前传播过程中，PyTorch构建了一个autograd图来记录所执行的动作。然后，在后向过程中，使用autograd图进行反向传播以生成梯度。最后，优化器应用梯度来更新参数。...数据并行通过在操作优化步骤之前进行梯度通信来实现分布式训练，这样可以确保使用完全相同的梯度集来更新所有模型副本的参数，因此模型副本可以在迭代中保持一致。参数平均是扩展模型训练的另一种流行技术。...由于DDP和优化器的解耦设计，DDP没有旁侧通道向优化器暗示该信息。如果没有这些信息，训练过程可能会受到模型精度回归的影响，例如，当优化器使用梯度感知信息跳过动量值更新时。

1.2K2 0

深度学习分布式训练框架 Horovod (1) --- 基础知识

1.2 分布式训练本文所说的训练，指的是利用训练数据通过计算梯度下降的方式迭代地去优化神经网络参数，并最终输出网络模型的过程。在单次模型训练迭代中，会有如下操作：首先利用数据对模型进行前向的计算。...例如，下图演示了在 k=2 时使用数据并行的训练。 ?...每个GPU使用这个小批量随机梯度来更新它维护的完整的模型参数集。...分布式训练的梯度同步策略可分为异步（asynchronous）梯度更新和同步（synchronous）梯度更新机制。...和 Scatter-Reduce 一样，也需要 N 次循环。在第 k 次循环时，第 i 个 worker 会将其第 (i+1-k)%N 个数据块发送给下一个 worker 。

1.8K4 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭