尽管使用了GPU内存，Keras仍停止了训练

、、、

与下面的主题类似，keras停止了工作。tf.keras - Training on first epoch not progressing despite using GPU memory 我在windows cuda 10.2上安装了python3.7 anaconda，并安装了3080 GPU keras 2.3.1 TF 1.4 几天前，一切都运行得很完美。然后在安装pytorch keras后停止工作。我之前训练</

浏览 15提问于2021-04-27得票数 1

1回答

为什么Keras没有使用完整的GPU内存？

、、

似乎我有一个人为的限制，使我无法使用全部的图形处理器内存，但我的config.gpu_options.per_process_gpu_memory_fraction没有设置任何限制。有没有人知道还有什么可能会阻止我使用全部内存？我将在下面解释为什么我认为我被阻止使用全部内存。我有一个非常大的Keras模型，有一个Tensorflow后端，我在AWS上运行。我可以使用batch_size 4训练，但是如果我使用batch_size 8训练</e

浏览 0提问于2018-09-13得票数 0

3回答

在使用生成器的model.fit期间，内存应该这么高吗？

、、

OS: Ubuntu 20GPU: RTX 2060RAM: 16 GPUclass DataGen(tf.keras.utils.Sequence): def8%，但训练一开始，它就开始得到30%到60%的值。由于我使用的是一个生成器，并且每次加载32个观测中的一小部分数据，所以在我看来，内存如此之高似乎很奇怪。此外，即使训练停止，记忆仍保持在30%以上。我检查了所有的全局变量，但它们都

浏览 11提问于2022-06-01得票数 4

回答已采纳

1回答

神经网络: gpu与非gpu

、、、、

我需要训练一个递归的神经网络作为语言模型，我决定使用带有theano后端的keras作为语言模型。用普通的PC和一些显卡来代替不能进行gpu计算的“酷”服务器机器更好吗？是否有一个边界(也许是由NN的结构和训练数据量提供的)，它将“cpu可学习的”问题与那些只能通过gpu? (在合理的时间内)完成的问题分开。 )在我工作的公司，我可以访问一台较旧的生产服务器。它有16个核心，大约49 is的可用内存，所以我以为我已经准备好接受训练了，现在我正在阅读关于gpu</

浏览 1提问于2016-12-10得票数 1

2回答

如何判断我的神经网络是否由于内存错误而崩溃？

、、

我正试图围绕一台笔记本电脑训练神经网络的能力来校准我的期望。我正在使用tensorflow和keras，大约10分钟后，它崩溃了。其他时候，当使用np_utils.to_categorical()进行一次性编码时，我在控制台中看到了单词memoryerror，就这样，我的脚本就崩溃了。无论是使用nvidia gpu还是使用4核cpu，它都会崩溃。对于专业人士来说，我的网络是否太大而无法在我的系统上进行训练(i7 4核，16 GT内存，nvidia GT 750m，计算能

浏览 3提问于2017-05-03得票数 2

9回答

GPU上的Tensorflow OOM

、、、

我正在Tensorflow的LSTM上训练一些音乐数据，在GPU内存分配方面遇到了一些问题，我不明白:我遇到了一个OOM，而实际上似乎仍然有足够的VRAM可用。有关内存状态，请参见日志。对于我的问题，最明显的解决办法就是让我的批次更小一些，让它们每个在1.5GB左右可能太大了。不过，我还是很想知道实际的问题是什么。编辑:我发现了一些东西，告诉我要尝试：config.gpu_options.allocator_type

浏览 10提问于2017-02-27得票数 23

回答已采纳

1回答

带有Tensorflow (1.3)后端的Keras* (2.0.8)占用所有可用RAM*

、、、

我正在使用keras库，并启用了tensorflow后端和CUDA。请参见PIP包版本输出：tensorflow-gpu (1.3.0)下面的代码创建了VGG16模型并加载了ImageNet，nvidia-smi显示，GPU内存是根据需要使用的。有没有人在不同版本的tensorflow或keras中发现这种行为？你认为有办法以某种方式限制内存

浏览 1提问于2018-03-07得票数 3

回答已采纳

3回答

当调用train_on_batch、fit等时，Keras使用了太多的GPU内存。

、、、

这并不是因为试图训练一些真正大的图像，而是网络模型本身似乎需要大量的GPU内存。我创造了这个玩具例子来说明我的意思。然后，我使用nvidia-smi来查看GPU内存Keras分配了多少，我可以看到这是非常有意义的(849 MB)。然后我编译网络，并可以确认这不会增加GPU内存的使用。然后，我尝试向网络提供一个简单的16x16映像和1x1的真实信息，然后一切都崩溃了，因为Keras开始重新分配大量<

浏览 6提问于2016-10-06得票数 40

1回答

内存可用时出现GPU运行时错误

、、、

我目前正在训练一些神经网络模型，我发现由于某种原因，尽管有可用的内存，但由于运行时错误，模型有时会在~200次迭代之前失败。Tried to allocate 2.00 MiB (GPU 0; 10.76 GiB total capacity; 1.79 GiB already allocated; 3.44 MiB free; 9.76 GiB reserved in total by PyTorch) 它显示了在应该有9.76 be可用内存的情况下，只使用了大约1.

浏览 10提问于2021-07-31得票数 0

4回答

训练暗网立即结束

、、、

/darknet detector train cfg/voc.data cfg/yolo-voc.cfg darknet19_448.conv.23 立即停止训练，并宣布权重已写入backups/目录起初，我认为训练前的训练太好了，很快就能达到停止训练的标准。因此，我使用了./darknet detect命令，在其中一个测试图像上使用了这些权重，data/dog。什么都没找到。如果我不使用任

浏览 3提问于2017-04-24得票数 14

回答已采纳

1回答

Keras CNN的SVC分类器，具有区分未训练类的概率或置信度

、、、、

这个问题非常类似于这个，并且基于GitHub上的帖子，从某种意义上说，我正在尝试将一个支持向量机多类分类模型(例如，使用sklearn)转换为一个Keras模型。具体地说，我正在寻找一种检索概率(类似于SVC probability=True)或置信度的方法，这样我就可以定义某种阈值，并能够区分训练类和非训练类。也就是说，如果我用3个或4个类训练我的模型，然后使用它没有训练过的第5个类，即使完全错误，它仍然会输出一些预测。我想以某种方式避免这种情况。#model.add(Activation('

浏览 1提问于2021-05-17得票数 0

1回答

Tensorflow MirroredStrategy()看起来可能只在一个GPU上工作？

、、

/tensorflow/models/tree/master/tutorials/image/cifar10_估计量，并确认这两个GPU都在使用(两者的功率都增加到160-180，内存几乎都被耗尽，GPU因此，我决定在我过去用一个GPU训练过的退出神经网络上试用tensorflow的MirroredStrategy()。但我不明白的是，两者的功率都在增加，内存几乎都是最大的，但只有一个GPU看起来被使

浏览 0提问于2019-11-22得票数 1

1回答

tensorflow.keras不使用gpu

、、、、

我正在用tensorflow.keras训练一个三维CNN。能探测到我的GPU。:GPU:0', device_type='GPU')] 然而，当我训练我的模型时，我可以在Windows任务管理器中清楚地看到GPU根本没有被使用。如何使我的模型在培训期间使用GPU？内存。，GPU-Util下的70%值保持在70% ~ 85%之间.这是否表明我的GPU被

浏览 4提问于2022-02-21得票数 0

回答已采纳

3回答

Tensorflow:未能在服务器中创建会话

、

我在Keras开发了一个模型，并对其进行了多次培训。一旦我强行停止了对模型的训练，从那时起，我就会犯以下错误： File "inception_resnet.py", line 246而且很可能，GPU内存仍然占为己有。我甚至不能创建一个简单的tensorflow会话。我看到了一个答案，但是当我在终端中执行以下命令时 export CUDA_VISIBLE_DEVICES=''

浏览 1提问于2018-01-30得票数 2

回答已采纳

1回答

Tensorflow 2.7在不同的机器上显示不同的结果

、、

现在，将这个项目迁移到另一台机器上，使我以一种我不明白的方式破坏了一切。在新机器上加载完全相同的模型后，推理得到了完全错误的结果，使它完全无用，就好像它从未受过训练一样。因此，包也一样(验证了Numpy、Tensorflow和Keras的版本)。Windows版本(必须验证它是否会在某一点上出现问题)也是一样的。如果我尝试在机器2上重新训练相同的模型，它会给出相同的结果(错误)，但是将这个新训练的模型复制到机器1上仍然有效，所以某种程度上训练是好的。我

浏览 9提问于2022-01-27得票数 1

回答已采纳

5回答

CuDNNLSTM和LSTM在Keras中有什么区别？

、、

在高级深度学习库Keras中，有多种类型的递归层，包括LSTM (长时记忆)和CuDNNLSTM。根据，CuDNNLSTM是一个： NVIDIA的Cuda工具包(>= 7.0)。我们推荐9.0版。因此，CuDNNLSTM与使用

浏览 2提问于2018-04-23得票数 52

1回答

如何使Keras* Conv2D层在GPU上工作*

、、、

我试图使用Python3.7.9中的Keras (Tensorflow 2.8.0)在Spyder 5.2.2上训练一个简单的卷积网络。当我使用CPU的时候，这个模型运行得很好，但是训练很慢。所以我决定尝试在我的GPU (GeForce GTX1050Ti)上运行它。]：0/任务:0/设备:GPU:0和2782 MB内存：->设备: 0，名称: GeForce GTX 1050 Ti，pci总线id: 0000:01:00.0，计算能力: 6.1 时代1

浏览 4提问于2022-03-17得票数 2

17回答

如何避免PyTorch中的“数据自动化系统内存不足”

、、、、

我认为对于内存较低的PyTorch用户来说，这是一个非常常见的消息：我试图通过将每个层加载到GPU并将其加载回图像来处理图像： m.cuda() m.cpu() torch.cuda.e

浏览 16提问于2019-12-01得票数 106

回答已采纳

2回答

Colab RAM在训练后几乎是满的，尽管我删除了变量

、、、

最近我正在使用Google Colab GPU来训练一个模型。训练结束后，我删除了用于训练的大型变量，但我注意到ram仍然是满的。我想知道到底发生了什么，内存中到底有什么，我如何才能在不重启的情况下释放内存？

浏览 1提问于2020-04-26得票数 2

8回答

用形状分配张量时理解ResourceExhaustedError: OOM

目前，我使用的是我的机器的一个GPU (总共2个GPU )，而GPU信息是name: GeForce GTX 1080 Ti major: 6 minor: 1 memoryClockRatebias:0' shape=(20

浏览 4提问于2017-09-06得票数 54

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么Keras没有使用完整的GPU内存？

在使用生成器的model.fit期间，内存应该这么高吗？

神经网络: gpu与非gpu

如何判断我的神经网络是否由于内存错误而崩溃？

GPU上的Tensorflow OOM

带有Tensorflow (1.3)后端的Keras* (2.0.8)占用所有可用RAM*

当调用train_on_batch、fit等时，Keras使用了太多的GPU内存。

内存可用时出现GPU运行时错误

训练暗网立即结束

Keras CNN的SVC分类器，具有区分未训练类的概率或置信度

Tensorflow MirroredStrategy()看起来可能只在一个GPU上工作？

tensorflow.keras不使用gpu

Tensorflow:未能在服务器中创建会话

Tensorflow 2.7在不同的机器上显示不同的结果

CuDNNLSTM和LSTM在Keras中有什么区别？

如何使Keras* Conv2D层在GPU上工作*

如何避免PyTorch中的“数据自动化系统内存不足”

Colab RAM在训练后几乎是满的，尽管我删除了变量

用形状分配张量时理解ResourceExhaustedError: OOM

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐