首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在TF2.0/1.14.0中利用分布式训练进行梯度积累--急切的定制训练循环(梯度磁带)?

如何在TF2.0/1.14.0中利用分布式训练进行梯度积累--急切的定制训练循环(梯度磁带)?
EN

Stack Overflow用户
提问于 2019-06-27 15:03:31
回答 1查看 1.1K关注 0票数 14

背景:我有一个模型,我试图将它移植到TF 2.0,以获得一些甜蜜的渴望执行,但我似乎不知道如何进行分布式培训(4个GPU),同时执行梯度积累。

问题:

  • 我需要能够使用带有梯度磁带的自定义训练循环,因为我有一个复杂的多模型问题(几个输入模型和输出模型一起训练),我不需要二阶梯度。
  • 以我的型号(中等大小的变压器)的大小,我无法得到一个大于~32的批处理尺寸,这是我能得到的最大的例子,遗憾的是,这些都是旧的11 32的K80,因为Azure似乎认为Google不再免费提供的GPU已经足够好了。
  • 我有一个数据集,需要非常大的批,因为我必须考虑一个非常大的不平衡(我也使用加权和焦距损失ofc),因此我需要执行4-8个梯度积累步骤,以平滑梯度。

我读过分布式培训循环指南并设法实现了它:loops

我还在TF2.0中为定制的训练循环和tf.kerashttps://colab.research.google.com/drive/1yaeRMAwhGkm1voaPp7EtFpSLF33EKhTc实现了梯度积累

EN

回答 1

Stack Overflow用户

发布于 2021-03-11 02:14:41

如果您还有任何问题,请阅读training并更新您的问题。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56793932

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档