开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

`tf.distribute.MirroredStrategy`对培训结果有影响吗？

tf.distribute.MirroredStrategy是TensorFlow中的一种分布式策略，用于在多个GPU上进行模型训练。它可以在每个GPU上创建模型的副本，并使用同步方式将梯度聚合到主模型中，从而加速训练过程。

tf.distribute.MirroredStrategy对培训结果有一定的影响。具体影响取决于以下几个因素：

数据并行性：tf.distribute.MirroredStrategy适用于数据并行的训练方式，即将训练数据分成多个批次，每个批次在不同的GPU上进行计算。这种方式可以加快训练速度，但也可能导致一些额外的开销，如数据传输和模型同步。
GPU性能：tf.distribute.MirroredStrategy需要在多个GPU上进行计算，因此GPU的性能对训练结果有一定影响。如果GPU性能较低，可能会导致训练速度变慢或者无法充分利用GPU资源。
模型复杂度：对于较复杂的模型，使用tf.distribute.MirroredStrategy可能会带来更明显的性能提升。因为模型复杂度较高时，单个GPU可能无法满足计算需求，而使用多个GPU可以并行计算，加快训练速度。
数据集大小：如果数据集较小，使用tf.distribute.MirroredStrategy可能不会带来明显的性能提升，甚至可能导致额外的开销。因为数据集较小时，数据传输和模型同步的开销可能会超过并行计算带来的性能提升。

综上所述，tf.distribute.MirroredStrategy可以在一定程度上影响培训结果，但具体影响取决于数据并行性、GPU性能、模型复杂度和数据集大小等因素。在实际应用中，需要根据具体情况进行评估和选择。

腾讯云相关产品和产品介绍链接地址：

腾讯云产品：https://cloud.tencent.com/product
腾讯云分布式训练服务：https://cloud.tencent.com/product/tf-distributed-training

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

【技术分享】改进官方TF源码，进行BERT文本分类的多卡训练

Google-research开源的BERT代码中，微调BERT进行文本分类的demo代码是基于TPUEstimator的单卡实现，即使机器上有多块GPU，也无法并行训练，不满足大规模训练的要求。本文分析开源demo代码无法多卡训练的原因，并给出修改代码，支持多卡训练的方案。

08

一文上手Tensorflow2.0（四）

【磐创AI导读】：本系列文章介绍了与tensorflow的相关知识，包括其介绍、安装及使用等。本篇文章是本系列文章的最后一篇。查看上篇：一文上手Tensorflow2.0之tf.keras｜三。在文末作者给出了答疑群的二维码，有疑问的读者可以进群提问。想要获取更多的机器学习、深度学习资源，欢迎大家点击上方蓝字关注我们的公众号：磐创AI。

02

keras系列︱keras是如何指定显卡且限制显存用量（GPU/CPU使用）

版权声明：博主原创文章，微信公众号：素质云笔记,转载请注明来源“素质云博客”，谢谢合作！！ https://blog.csdn.net/sinat_26917383/article/details/75633754

03

Keras vs tf.keras: 在TensorFlow 2.0中有什么区别?

在本文中，您将发现Keras和tf.keras之间的区别，包括TensorFlow 2.0中的新增功能。

03

《Scikit-Learn、Keras与TensorFlow机器学习实用指南（第二版）》第19章规模化训练和部署TensorFlow模型

有了能做出惊人预测的模型之后，要做什么呢？当然是部署生产了。这只要用模型运行一批数据就成，可能需要写一个脚本让模型每夜都跑着。但是，现实通常会更复杂。系统基础组件都可能需要这个模型用于实时数据，这种情况需要将模型包装成网络服务：这样的话，任何组件都可以通过REST API询问模型。随着时间的推移，你需要用新数据重新训练模型，更新生产版本。必须处理好模型版本，平稳地过渡到新版本，碰到问题的话需要回滚，也许要并行运行多个版本做AB测试。如果产品很成功，你的服务可能每秒会有大量查询，系统必须提升负载能力。提升负载能力的方法之一，是使用TF Serving，通过自己的硬件或通过云服务，比如Google Cloud API平台。TF Serving能高效服务化模型，优雅处理模型过渡，等等。如果使用云平台，还能获得其它功能，比如强大的监督工具。

02

TensorFlow 1.8.0正式发布，Bug修复和改进内容都在这里了

【导语】TensorFlow 1.8.0 近日正式发布，新版本主要有以下改进内容，AI科技大本营对其编译如下。 ▌主要特点及改进可以将 tf.contrib.distribute.MirroredStrategy() 传递给 tf.estimator.RunConfig() ，能够在一台有多个 GPU 的机器上运行评估器（Estimator）模型。添加 tf.contrib.data.prefetch_to_device() ，支持预取 GPU 内存。添加梯度提升树作为预先制作的评估器（Esti

09

TensorFlow 2.0中的tf.keras和Keras有何区别？为什么以后一定要用tf.keras？

通过本教程，你可以了解 Keras 和 tf.keras 之间的区别，以及 TensorFlow 2.0 的新特性。本教程的灵感来自于上周二我在 PyImageSearch 阅读器上收到的一封邮件。

03

业界 | 怎么把 GPU 上训练的模型转到 TPU 或者 CPU 上去？DeepMind 发布新工具支招

雷锋网 AI 科技评论按：DeepMind 有一支专门的科研平台团队（the Research Platform Team），他们的职责是为 AI 学术研究构建加速计算的基础设施。他们不经常亮相，但是这次由他们撰文介绍的 TF-Replicator 是一个极为有用的工具：它是又一个实用的软件库，可以帮助从未接触过分布式系统的研究人员们轻松地在 GPU 集群和云 TPU 集群上部署 TensorFlow 模型，也就成为了深度学习进行大规模工业化应用的重要组件。TF-Replicator 的程序化模型现在也已经作为 TensorFlow 的 tf.distribute.Strategy 的一部分开源在 https://www.tensorflow.org/alpha/guide/distribute_strategy。

03

业界 | 怎么把 GPU 上训练的模型转到 TPU 或者 CPU 上去？DeepMind 发布新工具支招

雷锋网 AI 科技评论按：DeepMind 有一支专门的科研平台团队（the Research Platform Team），他们的职责是为 AI 学术研究构建加速计算的基础设施。他们不经常亮相，但是这次由他们撰文介绍的 TF-Replicator 是一个极为有用的工具：它是又一个实用的软件库，可以帮助从未接触过分布式系统的研究人员们轻松地在 GPU 集群和云 TPU 集群上部署 TensorFlow 模型，也就成为了深度学习进行大规模工业化应用的重要组件。TF-Replicator 的程序化模型现在也已经作为 TensorFlow 的 tf.distribute.Strategy 的一部分开源在 https://www.tensorflow.org/alpha/guide/distribute_strategy。

03

简单粗暴上手TensorFlow 2.0，北大学霸力作，必须人手一册！

这是一本简明的 TensorFlow 2.0 入门指导手册，基于 Keras 和 Eager Execution（即时运行）模式，力图让具备一定机器学习及 Python 基础的开发者们快速上手 TensorFlow 2.0。

04

TensorFlow2.1正式版上线：最后一次支持Python2，进一步支持TPU

去年 10 月，谷歌才发布了 TensorFlow 2.0 正式版。时隔三个月后，昨日官方发布了 TensorFlow 2.1，本次版本更新带了了多项新特性、功能改进和 bug 修复。

03

DeepMind私货公开，推出分布式机器学习库，TensorFlow、Keras可用

TF-Replicator，本来是内部自用的一个软件库，能够让从来没做过分布式系统的研究人员方便地在多GPU/云TPU上部署他们的TensorFlow模型，也适用于Keras。

02

TensorFlow 2.1.0 来了，重大更新与改进了解一下

导读：2019 年 11 月末，TensorFlow 的官方 GitHub 账号发布了 TensorFlow 2.1.0-rc 版本，现在，官方最新发布了 TensorFlow 2.1.0 正式版本。据介绍，这将是最后一个支持 Python 2 的版本。除此之外，TensorFlow 2.1.0 还带来了很多重大更新与改进，了解一下。

00

关于Pointnet++的几点疑问

论文中的ssg版本能够达到90.7%。但是笔者以及问过的同学，都只能达到90.2%左右。于是笔者仔细思考了原因，参考文章告诉我们的信息，觉得问题有可能出在以下几点：

03

MLSQL是如何集成TensorFlow Cluster的

我们知道MLSQL支持SKLearn,TF等流行的算法框架，不过虽然支持了多个实例同时运行，但其实每个模型都需要跑全部数据。有的时候数据太大，确实是个问题，所以这个时候还是需要引入Cluster的。MLSQL基于Spark，所以问题就变成了如何在Spark里集成TF Cluster了。TFoS 已经实现了类似的功能，但遗憾的是，TFoS完全是用Python编写的，并且每次都需要启动一个新的Spark 实例来运行，overhead 是比较高的。

01

TensorFlow分布式实践

大数据时代，基于单机的建模很难满足企业不断增长的数据量级的需求，开发者需要使用分布式的开发方式，在集群上进行建模。而单机和分布式的开发代码有一定的区别，本文就将为开发者们介绍，基于TensorFlow进行分布式开发的两种方式，帮助开发者在实践的过程中，更好地选择模块的开发方向。

04

译：Tensorflow实现的CNN文本分类

翻译自博客：IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW 原博文：http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/ github：https://github.com/dennybritz/cnn-text-classification-tf 在这篇文章中，我们将实现一个类似于Kim Yoon的卷积神经网络语句分类

05

干货 | TensorFlow 2.0 模型：Keras 训练流程及自定义组件

在上一篇文章中，我们介绍了循环神经网络的建立方式。本来接下来应该介绍 TensorFlow 中的深度强化学习的，奈何笔者有点咕，到现在还没写完，所以就让我们先来了解一下 Keras 内置的模型训练 API 和自定义组件的方法吧！本文介绍以下内容：

00

如何使用TensorFlow构建神经网络来识别手写数字

神经网络被用作深度学习的方法，深度学习是人工智能的许多子领域之一。它们大约在70年前首次提出，试图模拟人类大脑的工作方式，尽管它的形式要简化得多。各个“神经元”分层连接，分配权重以确定当信号通过网络传播时神经元如何响应。以前，神经网络在他们能够模拟的神经元数量上受到限制，因此他们可以实现学习的复杂性。但近年来，由于硬件开发的进步，我们已经能够构建非常深的网络，并在大量数据集上训练它们以实现机器智能的突破。

DeepMind私货公开，推出分布式机器学习库，TensorFlow、Keras可用

TF-Replicator ，本来是内部自用的一个软件库，能够让从来没做过分布式系统的研究人员方便地在多GPU/云TPU上部署他们的TensorFlow模型，也适用于Keras。

00

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭