开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Tensorflow GPU/多GPU如何分配内存？

TensorFlow是一个开源的机器学习框架，它支持在GPU上进行计算加速。在使用TensorFlow进行GPU计算时，可以通过以下方式来分配内存：

GPU内存的分配方式：
- TensorFlow默认情况下会占用所有可用的GPU内存。这意味着，如果系统上有多个GPU，TensorFlow会尝试在每个GPU上分配尽可能多的内存。这种方式适用于较小规模的模型和数据集。
- 如果需要限制TensorFlow使用的GPU内存量，可以使用tf.config.experimental.set_memory_growth方法来动态分配内存。这样TensorFlow会根据需要逐渐增加内存使用量，直到达到限制为止。
- 另一种方式是使用tf.config.experimental.set_virtual_device_configuration方法来显式地指定每个GPU的内存分配。通过设置tf.config.experimental.VirtualDeviceConfiguration对象的memory_limit属性，可以限制每个GPU的内存使用量。
多GPU的内存分配方式：
- 在使用多个GPU进行计算时，TensorFlow会尝试将模型和数据平均分配到每个GPU上。这种方式适用于需要在多个GPU上进行并行计算的大规模模型和数据集。
- 可以使用tf.distribute.Strategy来实现多GPU的内存分配。tf.distribute.MirroredStrategy是一种常用的策略，它会在每个GPU上创建一个副本，并将模型和数据分配到每个副本上进行计算。
推荐的腾讯云相关产品和产品介绍链接地址：
- 腾讯云GPU计算实例：https://cloud.tencent.com/product/gpu
- 腾讯云AI引擎：https://cloud.tencent.com/product/tai
- 腾讯云机器学习平台：https://cloud.tencent.com/product/tensorflow

需要注意的是，以上答案仅供参考，具体的内存分配方式还需要根据实际情况和需求进行调整。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

腾讯云TKE-GPU案例: TensorFlow 在TKE中的使用

用户在TKE中部署TensorFlow, 不知道如何部署已经如何验证是否可以使用GPU,还是用的cpu. 下面主要演示如何部署TensorFlow以及验证TensorFlow在TKE中是否可以使用GPU

09

Tensorflow多GPU使用详解

磐创AI 专注分享原创AI技术文章翻译 | fendouai 编辑 | 磐石【磐创AI导读】：本文编译自tensorflow官方网站，详细介绍了Tensorflow中多GPU的使用。欢迎大家点击上方蓝字关注我们的公众号：磐创AI。目录：介绍记录设备状态手动分配状态允许GPU内存增长在多GPU系统是使用单个GPU 使用多个 GPU 一．介绍在一个典型的系统中，有多个计算设备。在 TensorFlow 中支持的设备类型包括 CPU 和 GPU。他们用字符串来表达，例如： •"/cpu:0":

04

使用GPU

该文章介绍了如何使用多个GPU进行训练，包括TensorFlow、PyTorch和MXNet等框架。文章首先介绍了多GPU训练的基础知识和技术，然后详细讲解了如何配置和管理多GPU训练环境，并通过实际案例演示了如何使用多GPU进行训练。

05

不再让CPU和总线拖后腿：Exafunction让GPU跑的更快！

选自exafunction 机器之心编译编辑：赵阳对于并行运算，GPU 的应用效率是最高的。在云服务中使用 GPU 是获得低延迟深度学习推理服务最经济的方式。使用 GPU 的主要瓶颈之一是通过 PCIe 总线在 CPU 和 GPU 内存之间复制数据的速度。对于许多打算用于高分辨率图像和视频处理的深度学习模型来说，简单地复制输入会大大增加系统的整体延迟，特别是当非推理任务，如解压缩和预处理也可以在 GPU 上执行时。在这篇博文中，研究者们将展示如何在 TensorFlow 中直接通过 GPU 内存传

04

【深度】TensorFlow or TensorSlow，谷歌基准测试为何不给力？（附Google内部员工测试代码下载）

11月9日Google发布了第二代深度学习引擎TensorFlow，引起业内广泛关注。发布后业内人士热议的一个话题是：这个引擎能否成为Google所说的平台级产品，它的基准测试究竟怎么样？ Soumith 在 Github 做基准测试，在 Google TensorFlow 发布后，Soumith 很快发布了关于 TensorFlow 的基准测试报告。【Soumith】GoogleTensorFlow的benchmark列在了这里。我在Imagenet Winners上运行了benchmark测试程序。

04

tensorflow指定CPU与GPU运算的方法实现

如果安装的是GPU版本，在运行的过程中TensorFlow能够自动检测。如果检测到GPU，TensorFlow会尽可能的利用找到的第一个GPU来执行操作。

02

黄金三镖客之TensorFlow版

原文链接：The Good, Bad, & Ugly of TensorFlow 作者：Dan Kuster 译者：刘翔宇审校：赵屹华责编：周建丁（zhoujd@csdn.net）自从TensorFlow半年前发布以来，我们一直使用它来进行日常研究和工程。在此过程中我们也学习到了很多知识。是时候写一些新体会了！因为TensorFlow上没有很多主观的文章和有用的文档，我必须尽可能地使用我能找到的样例、教程、文档和代码片段。善社区参与是最重要的。当涉及到机器学习时，很容易把注意力集中于技术

03

Keras - GPU ID 和显存占用设定

Keras - GPU ID 和显存占用设定初步尝试 Keras (基于 Tensorflow 后端)深度框架时, 发现其对于 GPU 的使用比较神奇, 默认竟然是全部占满显存, 1080Ti 跑个小分类问题, 就一下子满了. 而且是服务器上的两张 1080Ti. 服务器上的多张 GPU 都占满, 有点浪费性能. 因此, 需要类似于 Caffe 等框架的可以设定 GPU ID 和显存自动按需分配. 实际中发现, Keras 还可以限制 GPU 显存占用量. 这里涉及到的内容有: GPU ID 设定 GPU

TensorFlow必知基础知识

TensorFlow概要 Google第一代分布式机器学习框架DistBelief１，在内部大规模使用后并没有选择开源。而后第二代分布式机器学习系统TensorFlow２终于选择于2015年11月在GitHub上开源，且在2016年4月补充了分布式版本，并于2017年1月发布了1.0版本的预览，API接口趋于稳定。目前TensorFlow仍处于快速开发迭代中，有大量新功能及性能优化在持续研发。TensorFlow最早由Google Brain的研究员和工程师开发，设计初衷是加速机器学习的研究，并快速地

06

TensorFlow会话的配置项

01 TensorFlow配置项的文档位于这里 TensorFlow可以通过指定配置项，来配置需要运行的会话，示例代码如下： run_config = tf.ConfigProto() sess = tf.Session(config=run_config) 02 ConfigProto类配置项对于ConfigProto类具体有如下可配置的部分。 map<string, int32> device_count：设备的数量映射。key为设备的名称（比如”CPU”或者”GPU”），而value为该类型设备的数

04

Keras – GPU ID 和显存占用设定步骤

初步尝试 Keras (基于 Tensorflow 后端)深度框架时, 发现其对于 GPU 的使用比较神奇, 默认竟然是全部占满显存, 1080Ti 跑个小分类问题, 就一下子满了. 而且是服务器上的两张 1080Ti.

04

多GPU，具有Tensorflow的多进程

Tensorflow是实验深度学习算法的绝佳工具。但是要利用深度学习的力量，需要利用计算能力和良好的工程技术。最终需要使用多个GPU，甚至可能需要多个流程才能实现目标。建议先阅读TensorFlow关于GPU 的官方教程。

02

《Scikit-Learn与TensorFlow机器学习实用指南》第12章设备和服务器上的分布式 TensorFlow

在第 11 章，我们讨论了几种可以明显加速训练的技术：更好的权重初始化，批量标准化，复杂的优化器等等。但是，即使采用了所有这些技术，在具有单个 CPU 的单台机器上训练大型神经网络可能需要几天甚至几周的时间。

01

Caffe、TensorFlow、MXnet

Caffe已经很久没有更新过了，曾经的霸主地位果然还是被tensorflow给终结了，特别是从0.8版本开始，tensorflow开始支持分布式，一声叹息…MXNet还是那么拼命，支持的语言新增了四种，Matlab/Javascripts/C++/Scala，文档也变的更漂亮了，还推出了手机上图片识别的demo[8]。 1 基本数据结构库名称数据结构名称设计方式CaffeBlob存储的数据可以看成N维的c数组，有(n,k,h,w)四个维数，一个blob里面有两块数据空间保存前向和后向求导数据MXNetND

09

TensorFlow Lite发布重大更新！支持移动GPU、推断速度提升4-6倍

虽然移动设备的处理能力和功率都有限。虽然TensorFlow Lite提供了不少的加速途径，比如将机器学习模型转换成定点模型，但总是会在模型的性能或精度上做出让步。

02

[开发技巧]·TensorFlow&Keras GPU使用技巧

使用TensorFlow&Keras通过GPU进行加速训练时，有时在训练一个任务的时候需要去测试结果，或者是需要并行训练数据的时候就会显示OOM显存容量不足的错误。以下简称在训练一个任务的时候需要去测试结果，或者是需要并行训练数据为进行新的运算任务。

02

比 TensorFlow 云快 46 倍！IBM 用 Snap ML 和 Tesla V100 秀肌肉

AI 研习社按：TensorFlow 的机器学习库可以说大家都已经很熟悉了，但 IBM 的研究人员们表示这都是小意思。

02

CUDA编程整理

虽然CUDA有很多的C代码，这里我们主要以C++为主。一个完整的CUDA程序，需要经历7个步骤

02

用GPU进行TensorFlow计算加速

TensorFlow程序可以通过tf.device函数来指定运行每一个操作的设备，这个设备可以是本地的CPU或者GPU，也可以是某一台远程的服务器。但在本文中只关心本地的设备。TensorFlow会给每一个可用的设备一个名称，tf.device函数可以通过设备的名称来指定执行运算的设备。比如CPU在TensorFlow中的名称为/cpu:0。在默认情况下，即使机器有多个CPU，TensorFlow也不会区分它们，所有的CPU都使用/cpu:0作为名称。而一台机器上不同GPU的名称是不同的，第n个GPU在TensorFlow中的名称为/gpu:n。比如第一个GPU的名称为/gpu:0，第二个GPU名称为/gpu:1，以此类推。

00

深度学习框架Caffe/CNTK/Tensorflow/Theano/Torch的评估与比较

分享有问题请到留言区互动人工智能无疑是计算机世界的前沿领域，而深度学习无疑又是人工智能的研究热点，那么现在都有哪些开源的深度学习工具，他们各自的优缺点又是什么呢？本文对Caffe、CNTK、TensorFlow、Theano和Torch等深度学习工具从网络、模型能力、接口、部署、性能、架构、生态系统、跨平台等方面做了比较。 1.网络和模型能力 Caffe Caffe可能是第一个主流的工业级深度学习工具，它开始于2013年底,具有出色的卷积神经网络实现。在计算机视觉领域Caffe依然是最流行的工具包，它有

08

tf.ConfigProto类

tf.ConfigProto()主要的作用是配置tf.Session的运算方式，比如gpu运算或者cpu运算，设置性质如下：

02

腾讯开源围棋AI程序PhoenixGo，复现AlphaGo Zero

PhoenixGo是一个围棋AI程序，它执行AlphaGo Zero论文“掌握无人知识的Go游戏”。它也被称为FoxGo中的“BensonDarr”，CGOS中的“cronus”。在中国福州举办的“World AI Go Tournament 2018”中，来自微信团队的人工智能围棋程序PhoenixGo获得了冠军。

02

【技术创作101训练营】TensorFlow Lite的 GPU 委托（Delegate）加速模型推理

不过从我对文档的理解来看，感觉更像是添加的一种硬件后端（代理我想应该只是调用调用层面，不是底层实现，另外在Hexagon DSP的委托代理部分，文档坦言说Hexagon DSP的代理就是为了补充NNAPI，特别是针对那些NNAPI不可用DSP加速的、老旧驱动的设备，毕竟这些老旧设备也没有NNAPI这个东西，但有DSP硬件），交给模型的子图来去执行。比方原始模型的CPU执行Graph如上图。交给GPU的委托代理后，原Graph变为下面这样：

TensorFlow修炼之道（3）——计算图和会话（Graph&Session）

在计算图中，节点表示计算单位，边表示计算用到和产生的数据。例如，在TensorFlow图中，tf.matmul操作将对应于具有两个输入边（要乘以的矩阵）和一个输出边（乘法的结果）的单个节点。

04

[译]GPU加持，TensorFlow Lite更快了

由于处理器性能和电池容量有限，在移动设备上使用计算密集的机器学习模型进行推断是非常耗资源的。虽然可以采用一种加速途径：转换为定点数模型，但用户已经要求作为一种选项，为加速原始浮点模型推理提供GPU支持，而不会产生额外的复杂性和潜在的量化精度损失。

02

深度学习框架机器学习的开源库TensorFlow

在机器学习的领域中，张量指的是描述神经网络的数学模型中使用的多维数组。换言之，张量通常是一个矩阵或矢量的更高维泛化。通过一种使用秩来显示维数的简单表示法，张量可以将复杂的 n 维矢量和超形状表示为 n 维数组。张量有两个属性：数据类型和形状。关于 TensorFlow TensorFlow 是一个开源的深度学习框架，于 2015 年末依据 Apache 2.0 许可进行发布。自那以后，它成为了在全球得到最广泛采用的深度学习框架之一（根据它的 GitHub 项目数量来判断）。 TensorFlow 的起源

01

百折不挠，终于装好「TensorFlow」

此文为交流群「TensorFlow群」呵呵哒贡献，自己在win10中安装时踩过的坑，希望还被这些问题困扰的小伙伴，看完此文后能豁然开朗，同时没有安装过的以后可能会用到的小伙伴，可以收藏下，以备后用。

01

[译] TensorFlow 白皮书

TensorFlow 从名称上看就是两个部分——张量 tensor 和流 flow。非常形象的组合。众所周知，矩阵已经成为机器学习中的基础单元，若干的针对矩阵的计算优化使得现如今的机器学习成为可能。而一些矩阵的方法也是一些重要的机器学习算法的基础。张量就是矩阵概念的推广，其表示更多维度的矩阵。而计算流是一种抽象过程，在如今的深度学习领域，这种一层层地计算可以很形象地看做是张量在计算模型上的流动。而这里的流可以看做是更加一般的计算过程，可以在不同的层级间跨越式流动。本文作者均来自 Google Resea

06

[翻译] TensorFlow 分布式之论文篇 "TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Syst

本系列我们开始分析 TensorFlow 的分布式。之前在机器学习分布式这一系列分析之中，我们大多是以 PyTorch 为例，结合其他框架/库来穿插完成。但是缺少了 TensorFlow 就会觉得整个世界（系列）都是不完美的，不单单因为 TensorFlow 本身的影响力，更因为 TensorFlow 分布式有自己的鲜明特色，对于技术爱好者来说是一个巨大宝藏。

02

2万元「煤气灶」Titan RTX做深度学习？机器之心为读者们做了个评测

2018 年 12 月，英伟达在加拿大蒙特利尔 NeurIPS 大会上发布最新款产品 Titan RTX，作为 2017 年 Titan V 的「继承者」，Titan RTX 价格更低，显存更大，性能更强，且使用图灵架构，具备强大的光线追踪能力。因此，Titan RTX 的发布对 AI 社区而言，是不是做深度学习的一个不错选择呢？

05

Tensorflow与Keras自适应使用显存方式

Tensorflow支持基于cuda内核与cudnn的GPU加速，Keras出现较晚，为Tensorflow的高层框架，由于Keras使用的方便性与很好的延展性，之后更是作为Tensorflow的官方指定第三方支持开源框架。

02

TensorFlow与主流深度学习框架对比

TensorFlow是相对高阶的机器学习库，用户可以方便地用它设计神经网络结构，而不必为了追求高效率的实现亲自写C++或CUDA代码。它和Theano一样都支持自动求导，用户不需要再通过反向传播求解梯度。其核心代码和Caffe一样是用C++编写的，使用C++简化了线上部署的复杂度，并让手机这种内存和CPU资源都紧张的设备可以运行复杂模型（Python则会比较消耗资源，并且执行效率不高）。除了核心代码的C++接口，TensorFlow还有官方的Python、Go和Java接口，是通过SWIG（Simplified Wrapper and Interface Generator）实现的，这样用户就可以在一个硬件配置较好的机器中用Python进行实验，并在资源比较紧张的嵌入式环境或需要低延迟的环境中用C++部署模型。SWIG支持给C/C++代码提供各种语言的接口，因此其他脚本语言的接口未来也可以通过SWIG方便地添加。不过使用Python时有一个影响效率的问题是，每一个mini-batch要从Python中feed到网络中，这个过程在mini-batch的数据量很小或者运算时间很短时，可能会带来影响比较大的延迟。现在TensorFlow还有非官方的Julia、Node.js、R的接口支持。

02

比谷歌快46倍！GPU助力IBM Snap ML，40亿样本训练模型仅需91.5 秒

【新智元导读】近日，IBM 宣布他们使用一组由 Criteo Labs发布的广告数据集来训练逻辑回归分类器，在POWER9服务器和GPU上运行自身机器学习库Snap ML，结果比此前来自谷歌的最佳成绩快了46倍。英伟达CEO黄仁勋和IBM 高级副总裁John Kelly在Think大会上最近，在拉斯维加斯的IBM THINK大会上，IBM宣布，他们利用优化的硬件上的新软件和算法，取得了AI性能的大突破，包括采用 POWER9 和NVIDIA®V100™GPU 的组合。谷歌云上TensorF

教程 | 谷歌官博详解XLA：可在保留TensorFlow灵活性的同时提升效率

选自Google Blog 机器之心编译参与：Jane W、吴攀近日，谷歌开发者博客发布了一篇文章，介绍了用于 TensorFlow 的编译器 XLA（Accelerated Linear Algebra/加速线性代数）的原理和能力。 TensorFlow 的设计目标和核心优势之一是其灵活性。TensorFlow 被设计成一个灵活和可扩展的系统，可用于定义任意数据流图（data flow graph）并使用异构计算设备（如 CPU 和 GPU）以分布式方式有效地执行它们。但是灵活性通常与性能不能兼得。

基准评测 TensorFlow、Caffe、CNTK、MXNet、Torch 在三类流行深度神经网络上的表现（论文）

【新智元导读】新年伊始，新智元向你推荐香港浸会大学计算机学院褚晓文团队最新论文《基准评测当前最先进的深度学习软件工具》，评测了 Caffe、CNTK、MXNet、TensorFlow、Torch 这五个最受欢迎的DL框架在 FCN、CNN、RNN 上的表现。这是伯克利RISE实验室大牛、RISC之父 David Patterson 也在关注的深度学习库评测。论文作者强调这是一个开源项目，所有配置文件和实验数据均在 http: //www.comp.hkbu.edu.hk/∼chxw/dlbench.html

08

【深度学习框架大PK】褚晓文教授：五大深度学习框架三类神经网络全面测评（23PPT）

【新智元导读】中国香港浸会大学褚晓文教授团队在2016年推出深度学习工具评测的研究报告《基准评测 TensorFlow、Caffe、CNTK、MXNet、Torch 在三类流行深度神经网络上的表现》，并在2017年年初发布更新，引起广泛关注。在本次专访中，褚晓文教授介绍了各个工具的优势和劣势，并谈到了TPU崛起对GPU的影响。本文后半部分是褚晓文教授在AICC大会上的演讲实录和PPT。 📷 中国香港浸会大学褚晓文教授团队在2016年推出深度学习工具评测的研究报告，并在2017年年初发布更新，引

08

学界丨基准测评当前最先进的 5 大深度学习开源框架

AI 科技评论按：本文转自微信公众号医AI (med-ai)，来源：arXiv.org，论文作者：Shaohuai Shi, Qiang Wang, Pengfei Xu, Xiaowen Chu，译者：吴博, Elaine, Melody 在 2016 年推出深度学习工具评测的褚晓文团队，赶在猴年最后一天，在 arXiv.org 上发布了最新的评测版本。这份评测的初版，通过国内AI自媒体的传播，在国内业界影响很大。在学术界，其反响更是非同一般。褚晓文教授在1月5日的朋友圈说David Patterso

05

重磅！字节跳动开源高性能分布式训练框架BytePS：兼容TensorFlow、PyTorch等

AI 前线导读：近日，字节跳动人工智能实验室宣布开源一款高性能分布式深度学习训练框架 BytePS，在性能上颠覆了过去几年 allreduce 流派一直占据上风的局面，超出目前其他所有分布式训练框架一倍以上的性能，且同时能够支持 Tensorflow、PyTorch、MXNet 等开源库。

03

和TensorFlow一样，英伟达CUDA的垄断格局将被打破？

选自semianalysis.com 作者：Dylan Patel 机器之心编译机器之心编辑部 CUDA 闭源库将和 TensorFlow 一样逐渐式微。十年来，机器学习软件开发的格局发生了重大变化。许多框架如雨后春笋般涌现，但大多数都严重依赖于英伟达的 CUDA，并在英伟达的 GPU 上才能获得最佳的性能。然而，随着 PyTorch 2.0 和 OpenAI Triton 的到来，英伟达在这一领域的主导地位正在被打破。谷歌早期在机器学习模型架构、训练、模型优化方面都具有很大优势，但现在却难以充分发挥

01

免费！有了这个资料合集轻松玩转TensorFlow ！

1. TensorFlow 手册中文译版手册源自谷歌官方英文版，在开源社区诸多热心用户的鼎力支持下翻译完成，覆盖了 TensorFlow 从下载到安装的完整过程，另外还介绍了 MNIST机器学习入

06

【业界】IBM称其机器学习库的速度比TensorFlow快了46倍

AiTechYun 编辑：nanan IBM声称POWER9服务器和Beastly处理器（GPU）相结合，可以让Google Cloud发生颠覆。 IBM宣称，其POWER服务器上的机器学习不仅比Go

04

图深度学习入门教程（二）——模型基础与实现框架

深度学习还没学完，怎么图深度学习又来了？别怕，这里有份系统教程，可以将0基础的你直接送到图深度学习。还会定期更新哦。

04

Google 和 Nvidia 强强联手，带来优化版 TensorFlow 1.7

日前，谷歌和英伟达宣布将 NVIDIA TensorRT 集成到 TensorFlow 1.7 中。在谷歌开发者博客中，他们介绍了此次合作的详细信息以及整合之后的性能，AI 研习社编译整理如下： TensorRT 是一个可以用于优化深度学习模型，以进行推理，并为生产环境中的 GPU 创建运行环境的库。它能优化 TensorFlow 中的 FP16 浮点数和 INT8 整型数，并能自动选择针对特定平台的内核，以最大化吞吐量，并最大限度的降低 GPU 推理期间的延迟。全新的集成工作流程简化了在 TensorFl

08

在NVIDIA Jetson TX2上安装TensorFlow

刷机的目的是把Ubuntu操作系统和JetPack SDK安装到Jetson TX2上。刷机的操作按照官方教程即可，比较容易。这个过程中有一点需要注意：Jetson TX2和宿主机Host必须连接在同一个路由器之下。Host会先把操作系统刷到TX2上，这一步是通过数据线连接的方式完成，然后使用SSH的方式安装Host上的SDK到TX2，所以Host和TX2需要连接在同一个路由器下，方便Host找到TX2的ip地址。

02

Google 和 Nvidia 强强联手，带来优化版 TensorFlow 1.7

AI 研习社按，日前，谷歌和英伟达宣布将 NVIDIA TensorRT 集成到 TensorFlow 1.7 中。在谷歌开发者博客中，他们介绍了此次合作的详细信息以及整合之后的性能，AI 研习社编译整理如下：

03

tensorflow+入门笔记︱基本张量tensor理解与tensorflow运行结构与相关报错

**张量是所有深度学习框架中最核心的组件，因为后续的所有运算和优化算法都是基于张量进行的。**几何代数中定义的张量是基于向量和矩阵的推广，通俗一点理解的话，我们可以将标量视为零阶张量，矢量视为一阶张量，那么矩阵就是二阶张量。

01

用GPU加速Keras模型——Colab免费GPU使用攻略

本文将介绍对Keras模型训练过程进行加速的方法。重点介绍Google 的Colab平台的免费GPU资源使用攻略。

03

腾讯开源 TurboTransformers，推理加速性能超越 TensorRT 等主流优化引擎！

在自然语言处理领域，以 BERT 为代表的 Transformer 神经网络模型是近年来最重要的模型创新，为诸如阅读理解、文章摘要、语义分类、同义改写等 NLP 任务带了显著的效果提升。但 Transformer 在提高模型精度的同时，也引入了更多的计算量，这导致 Transformer 的线上 NLP 服务在部署方面面临着巨大挑战。

03

腾讯开源TurboTransformers，推理加速性能超越TensorRT等主流优化引擎

在自然语言处理领域，以 BERT 为代表的 Transformer 神经网络模型是近年来最重要的模型创新，为诸如阅读理解、文章摘要、语义分类、同义改写等 NLP 任务带了显著的效果提升。但 Transformer 在提高模型精度的同时，也引入了更多的计算量，这导致 Transformer 的线上 NLP 服务在部署方面面临着巨大挑战。

资源 | TensorFlow分布式计算机制解读：以数据并行为重

选自clindatsci 作者：Neil Tenenholtz 机器之心编译参与：Jane W、黄小天 Tensorflow 是一个为数值计算（最常见的是训练神经网络）设计的流行开源库。在这个框架中，计算流程通过数据流程图（data flow graph）设计，这为更改操作结构与安置提供了很大灵活性。TensorFlow 允许多个 worker 并行计算，这对必须通过处理的大量训练数据训练的神经网络是有益的。此外，如果模型足够大，这种并行化有时可能是必须的。在本文中，我们将探讨 TensorFlow 的

07

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭