文章/答案/技术大牛

发布

tensorflow在使用16个GPU时速度非常慢，并且会卡住

问题：tensorflow在使用16个GPU时速度非常慢，并且会卡住。

回答：这个问题可能是由于以下几个原因导致的：

数据并行性不足：当使用多个GPU时，如果数据量较小或者模型复杂度较低，可能无法充分利用所有GPU的计算能力。可以尝试增加训练数据的规模或者增加模型的复杂度来提高数据并行性。
网络通信瓶颈：在使用多个GPU时，需要进行GPU之间的数据传输和同步操作，如果网络通信速度较慢或者存在瓶颈，会导致训练速度变慢。可以尝试优化网络通信，例如使用更高速的网络设备或者减少GPU之间的数据传输量。
内存限制：使用多个GPU时，每个GPU都需要分配一定的内存来存储模型参数和计算中间结果。如果模型较大或者数据量较大，可能会导致内存不足，从而影响训练速度。可以尝试减少模型的内存占用，例如使用更小的模型或者减少每个GPU上的批量大小。
并行化策略不合理：在使用多个GPU时，需要选择合适的并行化策略来充分利用所有GPU的计算能力。如果选择的策略不合理，可能会导致部分GPU的计算资源闲置或者负载不均衡。可以尝试调整并行化策略，例如使用数据并行或者模型并行来提高训练速度。

针对这个问题，腾讯云提供了一系列适用于深度学习的云计算产品和解决方案，包括GPU云服务器、深度学习容器服务、AI推理服务等。您可以根据具体需求选择适合的产品来提高训练速度和性能。

推荐的腾讯云产品：

GPU云服务器：提供了多种配置的GPU云服务器，可以满足不同规模和需求的深度学习任务。详情请参考：GPU云服务器
深度学习容器服务：提供了预装了常用深度学习框架和工具的容器镜像，方便快速部署和管理深度学习环境。详情请参考：深度学习容器服务
AI推理服务：提供了高性能的AI推理服务，可以将训练好的模型部署到云端进行推理加速。详情请参考：AI推理服务

通过使用腾讯云的相关产品，您可以更好地解决tensorflow在使用16个GPU时速度慢的问题，并提高深度学习任务的效率和性能。

tensorflow在使用16个GPU时速度非常慢，并且会卡住

、、、

我使用亚马逊EC2的16GPU来做计算。当我配置所需的一切并在python中进行测试时，发生了一些奇怪的事情。/core/common_runtime/gpu/gpu_device.cc:955] Found device 0 with properties: major: 3/core/common_runtime/gpu/gpu_device.cc:95

浏览 1提问于2018-01-31得票数 1

回答已采纳

1回答

TensorFlow图形处理器内存

、、

我有一个非常大的深度神经网络。当我尝试在GPU上运行它时，我得到"OOM当分配“。但当我屏蔽GPU并在CPU上运行时，它可以工作(与小型号相比，速度大约慢100倍)。我的问题是，tenosrflow中是否有任何机制可以让我在GPU上运行模型。我假设CPU使用虚拟内存，所以它可以随心所欲地分配，并在缓存/RAM/磁盘之间移动(颠簸)。在Tensorflow</em

浏览 1提问于2018-06-16得票数 1

1回答

Tensorflow队列是否会加速单个CPU机器上的数据加载？

、、、、

我目前有一些现有的代码，它们在GPU上工作得很好。我尝试在单GPU的Ubuntu机器和多GPU的集群服务器上运行它。这两个实验都非常快。然而，当我尝试在我自己的笔记本电脑上用一个CPU (没有GPU)运行它时，它变得非常低……速度慢100倍以上。我知道当我没有GPU进行训练时，速度会慢得多。通常，我们使用CP

浏览 18提问于2019-01-17得票数 0

回答已采纳

1回答

使用GPU进行tensorflow对象检测

、、、

我已经用Google colab训练了一个更快的R-CNN模型，用于使用TensorFlow对象检测进行对象检测。但在测试视频时，google colab崩溃了，这就是为什么我决定在我的pc上测试，并安装了CUDA 10.0、Cudnn 7.6.5和TensorFlow-gpu = 1.15。但是测试速度非常慢，就好像它是在CPU上运行的一样。我在测试时收到这条消息，所以我猜它是在

浏览 3提问于2021-07-29得票数 0

2回答

keras不使用gpu，但tensorflow使用gpu

、、、、

Keras没有使用我的GPU，尽管tensorflow似乎可以很好地运行它。中指定一个分类器并对其进行训练时，它的运行速度非常慢。除了速度和明显的CPU使用率之外，我不知道如何判断Keras是否在使用GPU。我还从tensorflow文档中运行了这个示例，在我的终端中，我可以清楚地看到它使用了GPU。它的运行

浏览 2提问于2018-10-23得票数 0

1回答

如何修复AI平台GPU分布式培训作业中找不到的教练员包

、

我试着在人工智能平台上训练一个Tensorflow估计器。该模型对本地的训练非常好，尽管速度非常慢，但是当我尝试运行分布式GPU时，在AI平台上的GPU培训遇到了以下错误： CommandException: No URLs matched: gs://path

浏览 1提问于2019-06-07得票数 0

回答已采纳

4回答

在TensorFlow/cuDNN中，NCHW比NHWC快多少？

、

声明：还有，为什么它更快？据我了解(请参阅)，GPU上的NHWC的TensorFlow将始终在内部转到NCHW，然后调用NCHW的cuDNN conv内核，然后将其转回。但它为什么要这么做？也许在某个时

浏览 3提问于2017-05-31得票数 15

回答已采纳

1回答

如何在tensorflow中绘制掩蔽多边形？

我需要一个tensorflow替代枕头ImageDraw.Polygon作为tensorflow图的一部分(梯度是不需要的)。我有一个平行四边形的角，需要使用这个平行四边形作为二进制掩码填充零，除了平行四边形内的区域。gpu和cpu之间使用枕头的速度非常慢。有办法用丹索尔·弗洛画吗？还是在gpu上？有自由吗？

浏览 2提问于2021-12-15得票数 1

1回答

我一直在努力优化我的计算；对于我尝试过的大多数操作，tensorflow都要快得多。在@mrry的帮助下，我能够在tensorflow中执行这些操作。然而，令我惊讶的是，numpy方法明显更快？！对于数据科学家来说，tensorflow似乎是一个非常有用的工具，我认为这有助于澄清它的用途和优势。我不是以最有效的方式使用tensorflow 数据结构和操作吗？，我不知道非tensorflow方法会有多快。我使

浏览 7提问于2016-03-02得票数 0

回答已采纳

1回答

加载保存的tensorflow模型是否可以节省时间

问题是，我不能让我的电脑在ubuntu系统上运行我的tensorflow-gpu。因为NVIDIA驱动不能安装在ubuntu.So上，所以我在Windows10上运行tensorflow-gpu，但它不支持tensorflow服务。我知道Docker可以帮助我做到这一点，而且我真的安装了它，但是只安装了tensorflow-cpu.如果我只运行tensorflow-cpu版本，速度会非常慢<

浏览 1提问于2017-09-08得票数 0

3回答

Tensorflow-gpu问题(CUDA运行时错误:设备内核映像无效)

、、、

我有一个python虚拟环境(conda)，我已经在其中安装了CUDA工具包10.1.243和tensorflow-gpu 2.3.0rc0。我的CUDA驱动程序是11.0。为了测试tensorflow是否正确安装到GPU，我在venv中运行了一系列命令：真的 tf.config.list_physical_devices‘/physical_ device :GPU:0’，device_type=‘GPU</

浏览 0提问于2020-08-03得票数 7

2回答

从macbook (没有GPU)到linux系统的Titan V，只有4倍的加速比，我做错了什么？

、、

我在macbook上建立了一个网络架构的原型，在找到一些我有点满意的东西之后，我想在一个带有Titan V的系统上测试它，因为macbook对于更大的数据集来说非常慢(12小时)。如果不是更多的话，我希望每一个时期的CPU速度至少提高50倍。为什么加速速度可能只有4倍(3小时)？错误的结果是一些非常棘手的驱动程序问题，只需清理我的vm并重新开始，就能够修复它。尤其是这一行代码是非常宝贵的--其他一些检查“使

浏览 0提问于2018-05-20得票数 0

回答已采纳

1回答

tf.matmul在cpu上运行的原因

、、

我在训练我的模型时遇到了一些问题，特别是，训练速度有时快，有时慢(在每秒2-10层之间波动)。在使用张量板检查网络操作后，我发现tf.matmul()节点在CPU设备上运行。详情如下：这让我非常困惑，我试图使用tf.device('/gpu:0')来执行运行在GPU上的节点，我也试图降低tensorflow版本，但这些工作都没有。n_rep

浏览 6提问于2021-12-14得票数 1

1回答

我需要修改我的keras代码才能在gpu上高效运行吗？

、、、

我有cuda8.0.61，tensorflow_gpu版本和keras。我在224*224图像数据上训练一个20层的keras模型当我在终端上运行nvidia -smi时，我发现内存正在耗尽，并且计算util的百分比更小。当我尝试拟合模型时，机器变得非常慢。我知道，为了使用gpu并在设备之间切换，我应该使用以下代码： with K.tf.device('/gpu

浏览 18提问于2019-02-08得票数 1

1回答

使用TensorFlow的Dataset API进行多GPU训练

、

使用Tensorflow的新Dataset API进行多GPU培训(来自TFRecords格式)似乎要比在单个GPU上运行(1对4 Tesla K80s)慢得多(1/4慢)。从nvidia-smi的输出来看，使用4个GPU只会使GPU的利用率达到15%左右，而单个GPU的利用率大约为45%。从磁盘(tfrecords-格式)加载数据是否会导致培训速度的瓶颈？使用常规fe

浏览 3提问于2017-09-22得票数 2

2回答

tf.function比普通python代码慢得多

、

为了提高我的项目的性能，我用tf.function编写了一个函数来代替不使用tf的函数。结果是，在启用GPU时，普通的python代码运行速度比tf.funtion快很多(100倍)。在CPU上运行时，TF仍然比较慢，但只慢了10倍。我是不是遗漏了什么？patches.append(xp) yp += stride当cond很大(比如5000或更大)时，正如我所预期的，TensorAr

浏览 3提问于2021-02-04得票数 1

2回答

如何在GPU之间分配操作系统

、、

我正在运行一个非常大的Tensorflow模型的谷歌云ml引擎。当使用缩放层basic_gpu (使用batch_size=1)时，我会得到以下错误：因为模型太大，不适合一个GPU。使用提供4个GPU的层comple_model_m_gpu，我可以在4个GPU之间扩展操

浏览 9提问于2017-12-15得票数 2

回答已采纳

1回答

消除原型网络余弦相似度的约简

、、、、

我在tensorflow中实现了一个原型网络，它使用余弦相似性来比较模型的输出和之前计算的原型。这很好，但问题是它非常慢。之所以速度慢，是因为我必须用每个单独的原型分别计算每一个输出的余弦相似度。这将防止在GPU上对其进行潜在的并行化。在tensorflow中，您可以获得批处理和一组标签之间的余弦相似性，但是它将损失降低到一个值。这并不适用于我想要的，因为我需要找到每个原型的最小余弦相似性。我试过查

浏览 5提问于2022-03-18得票数 0

1回答

Tensorflow中的同步与异步计算

、、

在Tensorflow CIFAR教程中，它讨论了如何使用多个GPU，并给出了以下警告：这是什么意思？有人能提供一个非常简单的例子来说明这个警告吗？

浏览 3提问于2015-12-18得票数 3

回答已采纳

1回答

我的tensorflow默认使用我的GPU而不是CPU，这比CPU慢了10倍。我如何解决这个问题，并让它使用CPU？

、

我有一台带有独立GPU和专用GPU的游戏笔记本电脑(NVIDIA GeForce RTX 3070)。我认为这种缓慢的原因是因为tensorflow可能运行在专用GPU上，因为当我禁用专用GPU时，训练时间会加快10倍。使用专用GPU的<

浏览 4提问于2022-07-29得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

tensorflow在使用16个GPU时速度非常慢，并且会卡住

相关·内容

tensorflow在使用16个GPU时速度非常慢，并且会卡住

TensorFlow图形处理器内存

Tensorflow队列是否会加速单个CPU机器上的数据加载？

使用GPU进行tensorflow对象检测

keras不使用gpu，但tensorflow使用gpu

如何修复AI平台GPU分布式培训作业中找不到的教练员包

在TensorFlow/cuDNN中，NCHW比NHWC快多少？

如何在tensorflow中绘制掩蔽多边形？

TensorFlow运算与Numpy乘法的时间比较

加载保存的tensorflow模型是否可以节省时间

Tensorflow-gpu问题(CUDA运行时错误:设备内核映像无效)

从macbook (没有GPU)到linux系统的Titan V，只有4倍的加速比，我做错了什么？

tf.matmul在cpu上运行的原因

我需要修改我的keras代码才能在gpu上高效运行吗？

使用TensorFlow的Dataset API进行多GPU训练

tf.function比普通python代码慢得多

如何在GPU之间分配操作系统

消除原型网络余弦相似度的约简

Tensorflow中的同步与异步计算

我的tensorflow默认使用我的GPU而不是CPU，这比CPU慢了10倍。我如何解决这个问题，并让它使用CPU？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐