在训练期间，一个gpu比其他gpu使用更多的内存_我们可以在使用GPU的机器上使用torch训练一个模型，然后在只使用CPU的机器上使用这个模型吗？ - 腾讯云开发者社区

performance、tensorflow、gpu

我是Ubuntu和GPU的新手，最近在我们的实验室使用了Ubuntu 16.04和4 NVIDIA 1080 to的新PC。这台机器还有一个i7 16核心处理器。我有一些基本问题： Tensorflow是为GPU安装的。那么，我猜想它会自动优先考虑GPU的使用吗？如果是这样的话，它是使用所有4在一起还是使用1，然后在需要时再招募另一个？我能实时监控GPU在模型训练中的使用/活动吗？我完全理解这是基本的硬件内容，但对这些具体问题的明确明确答案将是很棒的。编辑：基于这个输出-它真的说几乎我的每个GPU上的所有内存都被使用了？

浏览 3提问于2017-08-07得票数 12

回答已采纳

2回答

获取错误“资源耗尽:当分配形状为[1800,1024，28，28，28]的张量，并在/job上键入浮动时:localhost/.”

tensorflow、out-of-memory、tensorflow2.0、object-detection、object-detection-api

当我的对象检测Tensorflow 2.5GPU模型启动训练时，我得到了一个资源扩展错误。我使用了18张训练图像和3张测试图像。我正在使用的预训练模型是来自Tensorflow动物园2.2的更快的using ResNet101 V1 640x640型号。我正在使用一个带有8GB专用内存的Nvidia RTX 2070来训练我的模型。我感到困惑的是，为什么训练过程在训练集如此小的时候占用了GPU的这么多内存。这是GPU内存的总结，我认为这是一个错误： Limit: 6269894656 InUse: 61034

浏览 4提问于2021-10-12得票数 1

回答已采纳

2回答

为什么通用GPU的内存如此有限？

neural-network、gpu

我们经常发现，神经网络的训练过程可能受到GPU内存大小的高度限制，比如在目标检测模型中，训练批次的大小可能被限制在1或2以内，这使得那些在这样的任务中工作很长时间的人不得不面对这样有限的内存/批处理大小的场景而提出了一些技巧。那么，为什么GPU内存仅限于普通P 100/V 100上的16 GPU内存，而在高性能工作站上的CPU内存仅为256 GPU？Nvidia发布128 is V100的障碍是什么？那要花多少钱呢？

浏览 0提问于2018-12-14得票数 2

9回答

如何防止tensorflow分配整个GPU内存？

python、tensorflow、tensorflow2.0、tensorflow2.x、nvidia-titan

我在一个共享计算资源的环境中工作，也就是说，我们有几台服务器，每台都配备了几个Nvidia Titan X GPU。对于小到中等大小的模型，12 GB的Titan X通常足以让2-3个人在同一GPU上同时运行训练。如果模型足够小，以至于单个模型没有充分利用GPU的所有计算单元，那么与一个接一个地运行训练过程相比，这实际上可以导致加速。即使在对GPU的并发访问确实减慢了个人训练时间的情况下，拥有多个用户同时在GPU上进行训练的灵活性仍然是很好的。 TensorFlow的问题是，默认情况下，它会在启动时分配全部可用GPU内存。即使是一个小的两层神经网络，我也看到所有12 GB的GPU内存都用完了

浏览 96提问于2015-12-10得票数 330

回答已采纳

2回答

在服务TensorFlow模型的性能中使用GPU有什么影响？

tensorflow-serving、tensorflow

我用GPU (1080 ti)训练了一个神经网络。GPU上的训练速度要比使用CPU好得多。目前，我想使用TensorFlow服务来服务这个模型。我只想知道在服务过程中使用GPU是否对性能有相同的影响？由于培训适用于批处理，但是推断(服务)使用异步请求，您是否建议在使用TensorFlow服务为模型服务时使用GPU？

浏览 12提问于2017-05-23得票数 3

回答已采纳

3回答

如何处理大量数据克服python中的RAM问题

python、deep-learning、keras、numpy

我使用numpy数组来处理深度学习图像。但是随着数据越来越大，我甚至在使用数据增强等技术训练模型之前就面临着RAM的问题。有人能建议我如何处理大数据吗？30 my的数据在我的系统，其中有16 my的内存。在预处理和培训过程中，我担心RAM，而我用GPU进行批量处理。

浏览 0提问于2018-02-10得票数 1

2回答

培训过程中批量大小设置

keras、gpu

当我使用keras + tensorflow-gpu进行训练时，我将batch_size设置为128，这是gpu可以接受的最大大小，否则就会出现OOM问题。我的问题是，当batch_size为128，图片大小为128* 224*224 *3*4(在RGB通道中，img大小为224*224)，总数约为1000万字节，我认为这与GPU的内存相比太小了。有什么解释吗？

浏览 2提问于2018-07-18得票数 3

回答已采纳

2回答

为什么Tensorflow在GPU升级后没有提高速度？

gpu、tensorflow

我已经安装了Tensorflow 1.4 GPU版本。Cuda8也被安装了。我用MNIST数据训练了我的简单的GAN网络。我有AMD FX 8320 CPU，16 FX系统内存和SSD硬盘驱动器。在具有1GB内存的GeForce 720 GPU上，每小时大约需要17秒钟。训练使用了25%的GPU和99%的内存。CPU负载很高，接近100%。然后，我用GeForce1050、Ti、GPU和4Gb内存插入了其他视频板，而不是以前的。GPU加载时间为5-6%，内存利用率为93%.但我仍然有大约17s的每一个时代和高负荷的CPU。那么也许Tensorflow有一些设置来利用更多的GPU呢？或者

浏览 1提问于2017-12-28得票数 2

2回答

Colab RAM在训练后几乎是满的，尽管我删除了变量

python、deep-learning、google-colaboratory、ram

最近我正在使用Google Colab GPU来训练一个模型。训练结束后，我删除了用于训练的大型变量，但我注意到ram仍然是满的。我想知道到底发生了什么，内存中到底有什么，我如何才能在不重启的情况下释放内存？

浏览 1提问于2020-04-26得票数 2

1回答

在单个gpu上，TensorFlow能否训练出一个大于GPU内存的模型？

python、tensorflow、memory、gpu、ram

如果我有一个具有8GBRAM的GPU，并且我有一个TensorFlow模型(不包括培训/验证数据)，即10 8GB，那么TensorFlow可以训练这个模型吗？如果是，TensorFlow是如何做到这一点的？备注：我不是在寻找分布式GPU培训。我想知道单个GPU的情况。我不关心培训/验证数据的大小。

浏览 0提问于2020-12-09得票数 1

1回答

Google pro+ gpu内存

tensorflow、deep-learning、gpu、google-colaboratory、training-data

有谁能引导我使用Colab +提供的GPU内存。我一直在使用colab pro，但是当我试图训练我的模型时，我的公羊会崩溃。Colab Pro+ GPU是否提供了比colab更多的内存？Colab提供12-15 gb内存取决于GPU类型。谢谢

浏览 7提问于2022-06-13得票数 0

1回答

如何在tensorflow中释放GPU内存？( `allow_growth`→`allow_shrink`?)

python、tensorflow、gpu、gpu-managed-memory

我用GPU训练了很多模型。我想调优网络的架构，所以我对不同的模型进行了顺序的训练，以比较它们的性能(我使用的是keras-tuner)。问题是有些模型非常小，而另一些则非常大。我不想把所有的GPU内存分配给我的培训，而只是我需要的数量。我有TF_FORCE_GPU_ALLOW_GROWTH到true，这意味着当一个模型需要大量内存时，GPU就会分配它。然而，一旦大模型已经训练，内存将不会释放，即使下一个训练是小模型。有没有办法强迫GPU释放未使用的内存？有点像TF_FORCE_GPU_ALLOW_SHRINK 也许自动收缩可能很难实现。如果是这样的话，我会很高兴有一个手动发布，我可以添加一

浏览 7提问于2022-10-25得票数 1

5回答

Keras / Tensorflow的低GPU使用率？

tensorflow、gpu、keras

我在一台使用nvidia Tesla K20c图形处理器的电脑上使用keras和tensorflow后端。(CUDA 8) 我正在训练一个相对简单的卷积神经网络，在训练期间我运行终端程序nvidia-smi来检查图形处理器的使用情况。正如您在以下输出中所看到的，GPU利用率通常显示在7%-13%左右我的问题是:在CNN培训期间，GPU的使用率不是应该更高吗？这是否表明keras/tensorflow的GPU配置或使用情况不佳？

浏览 9提问于2017-06-15得票数 18

1回答

如何在大训练集和小内存上训练神经网络

machine-learning、gpu、neural-network、gpgpu、training-data

我编写了自己的神经网络库，使用gpu计算进行反向传播。想让它通用，我不需要检查训练集是否适合gpu内存。当训练集太大，不适合gpu内存时，如何训练神经网络？我假设它适合主机的RAM。我必须在第一个部件上进行训练迭代，然后在设备上释放它，然后将第二个部分发送到设备上，然后对其进行训练，等等……然后对梯度结果进行总结。当我必须把所有的数据都推到PCIe总线上时，是不是太慢了？你有更好的主意吗？

浏览 2提问于2014-01-17得票数 1

2回答

设置批处理大小:培训所需内存是验证的两倍

python、deep-learning、keras、tensorflow、mini-batch-gradient-descent

我使用带有Tensorflow后端的Keras在GPU上训练图像分类模型。我在某个地方读到，培训大约使用两次(前后支持)验证的GPU内存，因此培训批次大小应该是验证批大小的一半。但是，在许多博客和教程中，我看到人们使用相同的批处理大小进行培训和验证。训练使用GPU内存两倍是真的，因为向前和向后传球，还是这是假的？

浏览 0提问于2018-08-11得票数 1

1回答

Caffe:如何选择内存中能够容纳的最大可维护批次大小？

memory、gpu、deep-learning、caffe

由于GPU内存小( 1Gb )，我遇到了一些问题，问题是，目前我通过尝试和错误选择了batch_size，而且即使逐行打印的内存大小小于1GB，Memory required for data:也可能失败。所以我的问题是：如何自动选择适合GPU内存的最大可用批次大小？ batch_size越大越好吗？如何计算网络部署过程中训练和前传所需的峰值内存？更新：也检查了，但我不确定是什么

浏览 4提问于2016-06-08得票数 5

1回答

内存泄漏与en_core_web_trf模型

memory-leaks、nlp、pytorch、gpu、spacy-3

在使用管道的en_core_web_trf模型时存在内存泄漏，我使用GPU和16 GPU内存运行该模型，下面是一个代码示例。 !python -m spacy download en_core_web_trf import en_core_web_trf nlp = en_core_web_trf.load() #it's just an array of 100K sentences. data = dataload() for index, review in enumerate( nlp.pipe(data, batch_size=100) ): #doing so

浏览 3提问于2021-03-27得票数 2

1回答

您如何知道何时使用多gpu？

keras、gpu

我的本地机器上有两个gpus，但我不确定我正在训练的模型是否同时使用它们(速度变化不大)。我的代码： def get_model(): base_model = ResNet50(weights='imagenet', input_shape=(image_size,image_size,3), include_top=False) #base_model.trainable = False model = models.Sequential() model.add(base_model) model.add(layers.Globa

浏览 0提问于2019-07-19得票数 1

3回答

现实中多gpu训练的优势是什么？

machine-learning、neural-network、deep-learning、training、gpu

一个gpu和多个gpu的训练损失递减速度基本相同. 在平均梯度后，多gpu的唯一好处是模型似乎同时看到了更多的数据。但是为什么平均梯度呢？模型是否真的同时提供了更多的数据？

浏览 0提问于2018-12-25得票数 3

回答已采纳

1回答

tensorflow正在运行时无法启动Tensorboard

python、tensorflow、tensorboard

当tensorflow已经在运行并使用GPU时，我无法启动tensorboard实例。错误如下所示。显然，Tensorflow会在启动时阻塞所有GPU内存，而不管它实际需要什么。有没有办法在tensorflow进程运行时启动tensorboard，或者总是先启动它？ totalMemory: 5,93GiB freeMemory: 41,56MiB 2018-06-02 15:28:11.053634: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1435] Adding visible gpu devices: 0 2018-06-0

浏览 95提问于2018-06-02得票数 2

回答已采纳

1回答

GPU PoolAllocator爆炸CPU内存

memory、tensorflow、cpu、cpu-usage

我创建了一个tensorflow模型，它具有相对常见的操作(除了一对tf.where和索引处理)，但是使用非常不同的输入形状(模型中的许多未定义的张量形状)调用它。 CPU上的一切都很好。--但是当你使用GPU时，内存的使用量(不是GPU内存，CPU内存)稳步增加，填补了256 up的内存，并杀死了自己。在此过程中，我收到了通常的信息： 2017-03-17 16:42:22.366601: I tensorflow/core/common_runtime/gpu/pool_allocator.cc:247] PoolAllocator: After 18347 get requests,

浏览 1提问于2017-03-17得票数 12

回答已采纳

2回答

在slurm上训练DL模型的速度越来越慢

python、machine-learning、deep-learning、pytorch、slurm

我们学校开始让他们的学生使用GPU服务器。所以我通过slurm训练DL模型。 salloc -p p3 -J chem_proj --mincpus=16 --mem=64G --time=2-00:00:00 --gres=gpu:a40:1 srun --pty bash 我通过使用上线获得了资源。(有16个gpu，64 got，一个A40 gpu，2天)。我用这条线启动了我的jupyter课程 singularity exec --nv /shared/public/images/docker_image.sif jupyter lab --no-browser --ip=xxx.xx

浏览 15提问于2022-09-05得票数 0

3回答

CUDA_ERROR_OUT_OF_MEMORY on Tensorflow#object_Protection.py

python、object-detection、tensorflow

我正在运行Tensorflow对象检测API来使用object_detection/train.py脚本来训练我自己的检测器，found 。问题是我经常得到CUDA_ERROR_OUT_OF_MEMORY。我发现了一些减少批处理大小的建议，这样培训师消耗的内存就更少了，但是我从16减少到了4，而且我仍然会遇到同样的错误。不同的是，在使用batch_size=16时，在步骤~18中抛出错误，现在在步骤~70中抛出错误。编辑：设置batch_size=1没有解决这个问题，因为我仍然在步骤2700时得到了错误。在我停止训练之前，我能做些什么来使它顺利运行呢？我真的不需要接受快速训练。编辑：，我

浏览 6提问于2017-11-27得票数 2

回答已采纳

1回答

如何进行更快的深度强化学习训练

tensorflow、gpu、dqn

如您所知，使用单个CPU进行深度强化学习(DRL)培训可能需要10天以上的时间。使用并行执行工具(如CUDA)，训练时间最多可减少1天(取决于CPU和GPU功能)。但是当使用CUDA时，GPU使用率在10%左右，并且训练时间仍然太长。对于那些想要在开发代码时频繁检查结果的开发人员来说，这是非常麻烦的。在编码技巧、构建模型、设置、GPU硬件等方面，您有什么建议来尽可能减少训练时间。

浏览 4提问于2021-04-29得票数 0

1回答

如何训练比GPU内存更大的TF模型？

python、tensorflow、object-detection、object-detection-api

我想使用TF2，最好是EfficientDet D7网络来训练一个大型目标检测模型。对于我的16 GB内存的Tesla P100卡，我遇到了一个“内存不足”异常，即显卡上没有足够的内存可以分配。所以我想知道在这种情况下我的选择是什么。如果我有多个GPU，那么TF模型将被拆分，以便填满两个卡的内存，这是正确的吗？因此，在我的情况下，使用第二张16 GB的Tesla卡，我在训练期间总共将拥有32 GB？如果是这样的话，我可以使用多个GPU的云提供商也是如此吗？此外，如果我错了，在训练期间为多个GPU拆分一个模型将不起作用，那么还有什么方法可以训练一个不适合我的GPU内存的大型网络？ PS:我知

浏览 18提问于2021-03-03得票数 0

回答已采纳

1回答

GFlops量对神经网络训练速度的影响

tensorflow、neural-network、computation

如果一个gpu/cpu拥有两倍的GFlops，那么另一个是否意味着该设备上的神经网络的训练速度将提高一倍？

浏览 1提问于2018-04-04得票数 1

回答已采纳

2回答

在训练机器学习模型时，GPU利用率低的原因是什么？

machine-learning、deep-learning、pytorch、gpu、cpu

假设服务器上有8个gpus。(由0至7) 当我在gpu #0上训练一个简单的(小的)模型时，每小时大约需要20分钟。但是，当我在一些gpu上加载5或6个以上的模型时，例如，从gpu #0到#2的每个gpu有2个实验，(总共6个)每个时代的训练时间都会爆炸。(约1小时) 当我为所有gpu训练两台gpu(总共16个实验)时，大约需要3个小时才能完成一个时代。当我看到CPU的利用率时，它是好的。但是GPU的利用率下降了。下降的原因是什么，我如何解决这个问题？

浏览 15提问于2022-09-03得票数 0

回答已采纳

2回答

丹索尔·弗洛。如何在GPU之间分配操作系统

multithreading、tensorflow、google-cloud-ml

我正在运行一个非常大的Tensorflow模型的谷歌云ml引擎。当使用缩放层basic_gpu (使用batch_size=1)时，我会得到以下错误：资源枯竭:分配张量时使用shape1,155,240,240,16 因为模型太大，不适合一个GPU。使用提供4个GPU的层comple_model_m_gpu，我可以在4个GPU之间扩展操作。然而，我记得我读到GPU之间的通信是缓慢的，并且会在训练中造成瓶颈。这是真的吗？如果是这样的话，是否有一种在GPU之间传播操作以防止此问题的推荐方法？

浏览 9提问于2017-12-15得票数 2

回答已采纳

1回答

小批量多GPU上的训练

tensorflow

我在一台有两个GPU的机器上运行TensorFlow，每个GPU有3 GB内存。我的批处理大小只有2 2GB，所以可以放在一个GPU上。使用两个GPU(使用CUDA_VISIBLE_DEVICES)进行训练有什么意义吗？如果我这样做了，TensorFlow将如何分发培训？

浏览 15提问于2018-08-08得票数 0

3回答

如何使TensorFlow使用100%的GPU？

tensorflow、keras、deep-learning、gpu、nvidia

我有一台有RTX 2060 GPU的笔记本电脑，我正在使用Keras和TF 2来训练LSTM。我也在监测nvidia-smi使用gpu的情况，我注意到jupyter笔记本和TF最多使用35%，通常gpu的使用率在10-25%之间。在目前的情况下，花了7个多小时来训练这个模型，我想知道我是做错了什么，还是它是Keras和TF的限制？我的nvidia-smi输出： Sun Nov 3 00:07:37 2019 +-----------------------------------------------------------------------------+ | NV

浏览 7提问于2019-11-02得票数 1

回答已采纳

1回答

GPU使用率低于90% =优化不佳的游戏

optimization、pc

好吧，所以不是一个“发展”问题，而是高度相关的问题。当我玩游戏时，我经常看性能数字，比如CPU的使用，GPU的使用，内存的使用等等。让我们谈谈GPU在PC上的使用。以下是我的观察:有两种游戏：最大GPU使用率:这些游戏产生60 FPS或90%+ GPU的使用。 GPU使用率差:这些游戏同时产生的FPS不足60，GPU使用率不足90%。 MAX GPU示例(试图确保我的想法被理解为ok)： 50 FPS，100% GPU 60 FPS，90% GPU 60 FPS，50% GPU (也合法) 可怜的GPU例子： 30 FPS，60% GPU (FPS限制为60) 40 FPS，50% GPU

浏览 0提问于2015-12-08得票数 1

6回答

Windows上不可预测的CUDNN_STATUS_NOT_INITIALIZED

windows、tensorflow、keras、cudnn

我在Windows 10上的GTX 1070上运行keras神经网络训练和预测。大多数情况下，它是有效的，但偶尔也会出现问题 E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor\cuda\cuda_dnn.cc:359] could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED E c:\tf_jenkins\home\workspace\release-win\device\gpu\os\window

浏览 2提问于2017-07-12得票数 6

1回答

使用模型后如何清除GPU内存？

pytorch

我正在尝试释放GPU内存后，完成了使用模型。在创建和培训模型之前，我检查了nvidia-smi：402MiB / 7973MiB 在创建和训练模型之后，我再次使用nvidia-smi：7801MiB / 7973MiB检查GPU内存状态。现在，我尝试用以下方法释放GPU内存： del model torch.cuda.empty_cache() gc.collect() 并再次检查GPU内存：2361MiB / 7973MiB 如您所见，并不是所有的GPU内存都被释放了(我希望得到 400~MiB / 7973MiB)。我只能通过终端(sudo fus

浏览 3提问于2021-11-21得票数 6

回答已采纳

1回答

训练图像识别神经网络的系统要求

machine-learning、python、deep-learning、tensorflow、image-recognition

我有6000张图像要在神经网络上训练。我目前的个人电脑规格:- 32 1TB内存，i5 2核心处理器，标准GPU (无工作)，1TB硬盘我的神经网络规范:- 3000年代尺寸，6批大小过程正被这些规格所扼杀。要训练好它需要多少硬件？什么是理想的批次大小和Epoch大小？

浏览 0提问于2018-08-24得票数 3

1回答

OOM与tensorflow

tensorflow、machine-learning

我面临一个OOM错误，整个训练我的tensorflow模型，结构如下：用tf.nn.rnn_cell.DropoutWrapper(tf.nn.rnn_cell.LSTMCell) #forward 2* tf.nn.rnn_cell.DropoutWrapper(tf.nn.rnn_cell.LSTMCell) #向后tf.nn.bidirectional_dynamic_rnn初始化的tf.contrib.layers.embed_sequence将上面的层包装为输出层我试图将批处理的大小降低到64，我的输入数据被填充到1500，而我的词汇表大小是8938。我使用的集群非常强

浏览 0提问于2019-02-24得票数 1

1回答

神经网络训练中的ResourceExhaustedError误差

python、tensorflow、keras、deep-learning、gpu

欢迎大家。我试着训练我的第一个神经网络。当我试图训练她的时候-这个错误出现了：当使用shape502656,128分配张量，并在/job上键入tensorflow.python.framework.errors_impl.ResourceExhaustedError: OOM时:localhost/replica:0/任务:0/设备:GPU:0由分配器GPU__bfc 我读到，我意识到这是因为视频卡中的内存很少(GTX10502GB)。原来我在这里根本就不能用视频卡？也许我能以某种方式“部分”发布视频卡数据集？代码： import keras from keras.datas

浏览 1提问于2019-01-29得票数 0

回答已采纳

2回答

已完成作业使用的查询峰值GPU内存

linux、cluster、memory-usage、slurm

我有一份与sbatch一起提交的乏味的工作，例如 sbatch --gres gpu:Tesla-V100:1 job.sh job.sh在V100图形处理器上训练模型。代码本身不记录GPU内存的使用情况。，工作完成后，是否有SLURM命令来查询峰值GPU内存使用情况？

浏览 0提问于2020-03-11得票数 2

回答已采纳

1回答

在keras中使用EfficientNet时的ResourceExhaustedError

keras、deep-learning、classification、conv-neural-network

我正在使用google colab。在使用EfficientNetB3时，我得到以下错误 Resource exhausted: OOM when allocating tensor with shape[15,95,95,192] and type float 我理解这一点是因为我的数据不适合GPU。但是当我尝试InceptionResNetV2时，我没有得到任何错误。 EfficientNetB3中可训练的参数个数为22,220,824 InceptionResNetV2中可训练的参数个数为109,380,744 InceptionResNetV2中可训练参数的数量比EfficientNe

浏览 0提问于2020-02-29得票数 3

1回答

神经网络: gpu与非gpu

machine-learning、neural-network、gpu、theano、keras

我需要训练一个递归的神经网络作为语言模型，我决定使用带有theano后端的keras作为语言模型。用普通的PC和一些显卡来代替不能进行gpu计算的“酷”服务器机器更好吗？是否有一个边界(也许是由NN的结构和训练数据量提供的)，它将“cpu可学习的”问题与那些只能通过gpu? (在合理的时间内)完成的问题分开。 )在我工作的公司，我可以访问一台较旧的生产服务器。它有16个核心，大约49 is的可用内存，所以我以为我已经准备好接受训练了，现在我正在阅读关于gpu优化theano正在做的事情，我认为我基本上没有它就完蛋了。编辑我刚刚遇到了这个，在这里，TomášMikolov说，他们在10天内成

浏览 1提问于2016-12-10得票数 1

1回答

加速Haar级联培训过程

gpu、haar-classifier

训练一个haar级联需要大量的时间，而且整个训练周期取决于机器。是什么因素有助于加快这一进程？有更多的RAM和GPU有帮助吗？haar级联训练有像tensorflow那样的GPU支持吗？

浏览 3提问于2017-05-08得票数 0

2回答

如何用tensorflow2和keras在多gpus上训练模型？

tensorflow、keras、gpu、tensorflow2.0

我有一个LSTM模型，我想训练多个gpus。我对代码进行了转换，在nvidia-smi中，我可以看到它正在使用所有gpu的所有内存，每个gpu都在使用大约40%的内存，但每批培训的估计时间几乎与1个gpu相同。有人能引导我，告诉我如何在多个gpus上进行适当的训练吗？我的代码： import tensorflow as tf from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense from tensorflow.keras.layers import LSTM fro

浏览 26提问于2019-11-28得票数 1

回答已采纳

1回答

利用GPU实现TF's bidirectional_dynamic_rnn的低效率

tensorflow、gpu

我正在使用NVIDIA P40来训练分类模型。我使用了tensorflow的bidirectional_dynamic_rnn来构建双lstm网络，训练效率很低，只使用了大约30%的计算资源，而且速度甚至比使用45个逻辑核的CPU还要快。能不能给出一些建议，充分利用GPU计算资源，或者解释原因？

浏览 0提问于2017-05-10得票数 0

回答已采纳

2回答

我能逐层训练Keras/TF模型吗？

tensorflow、keras、gpu、resnet、vgg-net

我想训练一个大型的人脸识别网络。Resnet或VGG-16/19. TensorFlow 1.14 我的问题是--如果我用完了GPU内存--是一个一个地训练一组层的有效策略吗？例如训练2 cnn和最大集合层为一组，然后以某种方式“冻结重量”，然后训练下一组等等。我知道我可以在tensorflow上训练多个GPU，但如果我只想坚持一个GPU呢.

浏览 0提问于2019-09-14得票数 0

2回答

Keras:完成训练过程后释放内存

python、keras

我使用Keras构建了一个基于CNN结构的自动编码器模型，在完成训练过程后，我的笔记本电脑有64 GPU的内存，但我注意到至少1/3的内存仍然被占用，GPU内存也是如此。我没有找到释放内存的好方法，我只能通过关闭Anaconda提示符命令窗口和jupyter笔记本来释放内存。我不确定是否有人有好的建议。谢谢!

浏览 3提问于2018-06-24得票数 20

1回答

如何解决""RuntimeError: CUDA out of memory."？有办法释放更多的内存吗？

python、tensorflow、jupyter-notebook、gpu

在本例中，我在VM上使用jupyter notebook来训练一些CNN模型。虚拟机具有16v CPU和60 VM内存。为了获得更好的性能，我刚刚安装了一台NVIDIA TESLA P4。但是它总是会给出像"RuntimeError: CUDA out of memory. Tried to allocate 196.00 MiB (GPU 0; 7.43 GiB total capacity; 2.20 GiB already allocated; 180.44 MiB free; 226.01 MiB cached)"这样的错误为什么会发生这种情况？系统都是干净的。我想

浏览 114提问于2019-12-11得票数 3

2回答

为什么在CPU学习比在GPU学习慢

catboost

我有: GPU : GeForce RTX20708GB。CPU : AMD Ryzen 7 1700八核处理器.内存:32 RAM。司机版本: 418.43。CUDA版本: 10.1。在我的项目中，gpu也比cpu慢。但是现在我将使用文档示例。 from catboost import CatBoostClassifier import time start_time = time.time() train_data = [[0,3], [4,1], [8,1], [9,1]] train_labels = [0,0,1,1]

浏览 0提问于2019-03-19得票数 2

回答已采纳

1回答

TensorFlow - GPU加速只用于训练？

tensorflow、gpu、nvidia

利用GPU加速与TensorFlow只提高模型的训练速度，还是也有助于提高速度时，使用模型的数据。大多数指南只讨论如何将GPU加速用于培训目的。同样，它会与任何一起工作吗？即使是那些通过shell脚本运行的？此外，默认情况下，它是在shell脚本上运行，还是需要显式编码才能工作。

浏览 2提问于2016-08-17得票数 1

回答已采纳

2回答

如何用theano加速GPU模式的卷积神经网络？

neural-network、gpu、theano、conv-neural-network

我正在使用theano实现一个卷积神经网络。我的CPU RAM是32G，GPU RAM是2G，但数据也非常大--几乎是5G的训练数据。当程序运行时，计算机似乎被冻结了，每个操作都非常慢，甚至没有响应。而且CPU模式似乎比GPU模式至少快2倍。有没有办法加速GPU卷积神经网络？

浏览 0提问于2015-03-14得票数 0

1回答

Tensorflow训练崩溃超过系统内存的10%，尽管训练批大小为1

python、tensorflow、gpu

批处理大小为128/64/32的训练用于在几个时期后简单地清空GPU内存。然而，运行随机批处理训练实际上会使程序停留在第一个时期的0%。 --------------- Epoch 1 --------------- 0%| | 0/486 [00:00<?, ?it/s]2019-06-18 18:04:58.581233: W T:\src\github\tensorflow\tensorflo

浏览 351提问于2019-06-19得票数 0

1回答

训练ResNet时使用GPU OOM，但仍有GPU空闲

tensorflow、resnet

我正在使用batch Szie256训练的resnet34会导致OOM。但是我使用的机器有8个Titan GPU，分别有12G的GPU内存，我注意到当OOM发生时，仍然有7个GPU备用。我想知道为什么会发生这种情况。当第一个GPU内存不足时，tensorflow不能使用其他并行GPU吗？如何解决这个问题？ ……………………………………更新…………………………………实际上，我确实通过编码“os.environment”设置了所有gpus都可以工作，我还遗漏了什么，或者有什么问题吗？

浏览 2提问于2020-06-15得票数 0