在Keras中，使用SGD，为什么model.fit()训练得很顺利，但分步训练方法给出了爆炸性的梯度和损失

python、tensorflow、keras、deep-learning、gradient-exploding

因为这种爆炸性的梯度和爆炸性的损失发生在网络巨大的时候，所以我不在这里张贴整个网络。问题是，使用Keras API有两种训练方法，一种是model.fit()，第二种是更多的定制方法，用于更复杂的训练和网络，但是虽然我几乎所有的东西都保持不变，model.fit()没有爆炸性

浏览 36提问于2021-08-06得票数 0

回答已采纳

2回答

Tensorflow for XOR在500个时期后无法正确预测

python、tensorflow、machine-learning、keras、neural-network

我正在尝试使用TensorFlow实现一个神经网络来解决异或问题。我选择sigmoid作为激活函数，shape (2, 2, 1)和optimizer=SGD()。我选择batch_size=1是因为问题的全局性是4，所以真的很小。问题是，预测结果甚至与正确答案相去甚远。我做错了什么？我在Google Colab上这样做，Tensorflow的版本是2.3.0。(1, activation=tf.keras.activations.sigmoid)) model.co

浏览 46提问于2020-11-04得票数 3

回答已采纳

1回答

学习率没有影响

keras、deep-learning、classification、learning-rate

我使用的是带有Keras的MLP，用sgd优化的。我想调整学习速度，但它似乎对训练没有任何影响。我尝试了小学习率(.01)以及非常大的学习率(高达1e28)，而且效果几乎不明显。我的损失不应该在使用一个很大的学习率的时候爆炸吗？我使用的是一个完全连接的神经网络，它有三个隐藏层和乙状结肠激活函

浏览 2提问于2020-03-28得票数 0

1回答

不能用model.fit复制GradientTape

tensorflow、adam

我一直在试图调查为什么SGD在训练中有0.001的学习率，而Adam却没有这样做。(请看我以前的帖子)model.compile(optimizer=SGD(learning_rate=0.001),

浏览 5提问于2020-03-07得票数 2

27回答

训练回归网络时的NaN损失

python、keras、neural-network、theano、loss-function

我有一个“一热编码”(全部为1和0)的数据矩阵，包含26万行和35列。我用Keras训练一个简单的神经网络来预测一个连续变量。=1, validation_data=(X_test,Y_test), callbacks=[EarlyStopping(monitor='val_loss', patience=4)] ) 然而，在训练过程中RMSProp而不是SGD，我尝试了tanh而不是relu，我

浏览 24提问于2016-05-14得票数 122

回答已采纳

2回答

Keras中的策略梯度

python、deep-learning、theano、keras、q-learning

我一直试图建立一个使用‘深度Q-学习’的模型，其中我有大量的行动(2908)。在使用标准DQN：()取得有限的成功之后，我决定做更多的研究，因为我认为动作空间太大，无法进行有效的探索。然后我发现了这篇论文：，在这里他们使用了一个参与者-评论家模型和策略梯度，这导致了我：，在那里，他们使用策略梯度来获得比DQN更好的结果。我已经找到了几个在

浏览 6提问于2016-11-05得票数 23

3回答

为什么不同的批次大小在Keras中提供不同的精度？

machine-learning、keras、deep-learning、conv-neural-network

我用Keras的CNN来分类MNIST数据集。我发现使用不同的批次大小会带来不同的准确性。为什么会这样呢？(Acc = 0.97600)虽然差异很小，但为什么会有差异呢？编辑--我发现这种差异仅仅是因为精度问题，而且它们实际上是相等的。

浏览 0提问于2019-04-03得票数 3

回答已采纳

6回答

梯度下降和随机梯度下降有什么区别？

machine-learning、neural-network、deep-learning、gradient-descent

梯度下降和随机梯度下降有什么区别？我对这些不太熟悉，你能用一个简短的例子来描述这种差异吗？

浏览 0提问于2018-08-04得票数 75

3回答

具有相同标签的批处理的每个成员有多大的问题？

classification、class-imbalance、mini-batch-gradient-descent

我有128个批次大小和大约1000万个数据大小，我将在4个不同的标签值之间进行分类。例如，批处理0都有第三个标签。第一批都有第一批。第二批。等。

浏览 0提问于2020-07-01得票数 2

回答已采纳

3回答

在keras中使用批处理标准化进行微调

python、tensorflow、keras、deep-learning、batch-normalization

我已经成功地训练了一个超过100000个样本的模型，它在训练集和测试集上都表现得很好。然后，我尝试对一个特定的样本( 100000个样本中的一个)进行微调，并使用训练好的权重作为初始化。x，y是一个特定样本的输入和标签。我想进一步优化样本的损失。但是在训练集(实际上与model.fit

浏览 1提问于2018-12-24得票数 2

1回答

使用GradientTape而使用model.fit()改进模型

python、tensorflow、machine-learning、keras、gradienttape

我目前正在尝试使用tf.GradientTape来训练一个模型，因为来自keras的model.fit(...)将来将无法处理我的数据输入。然而，虽然使用model.fit(...)和我的模型运行的测试工作得很好，但tf.GradientTape却没有。另外，我注意到了一些事情：与model.fit(...)相比，定制培训大约需要2倍的时间

浏览 4提问于2022-08-22得票数 0

1回答

Keras模型evaluate()和predict_classes()给出了相互矛盾的结果

python、tensorflow、keras、computer-vision

我已经使用Keras的VGG16进行了一段时间的工作，在对我自己的4类数据集进行了微调之后，训练似乎进行得很顺利，训练和验证集的准确性提高了，最后，即使是使用model.evaluate()的评估在测试数据上也有很好的准确性为了证实这一点，我尝试使用以下方法对我的数据集中的图

浏览 3提问于2018-11-05得票数 0

1回答

在运行“构建您自己的联邦学习算法”教程时，Tensorflow federated ( TFF ) 0.19的性能明显低于TFF 0.17

tensorflow-federated

在最后的“构建您自己的联邦学习算法”教程中指出，在训练我们的模型15轮之后，我们将期望在0.25左右运行一个sparse_categorical_accuracy，但是在colab中运行该教程将给出一个基于我运行的结果在然而，只需将tf和tff版本分别更改为2.3.x和0.17，就会得到0.25左右的结果，就像我们预期的那样！要按原样运行上述教

浏览 0提问于2021-07-12得票数 2

回答已采纳

6回答

Keras中的自定义损失函数应该返回该批的单个损失值，还是返回培训批中每个样本的损失数组？

tensorflow、machine-learning、keras、tensorflow2.0、loss-function

我正在学习tensorflow(2.3)中的keras。但是上面的函数给出了整个批次的一个值。我读了类的源代码。当您向方法提供一个丢失函数(请注意它是一个函数，而不是一个丢失类)时，将使用该丢失函数来构造一个LossesContainer对象，该对象存储在Model.compiled_loss中</em

浏览 8提问于2020-08-13得票数 24

回答已采纳

1回答

如何用pytorch评估和获得前馈神经网络的精度

python、neural-network、deep-learning、pytorch、linear-regression

我开始使用Pytorch，目前正在做一个项目，我正在使用一个简单的前馈神经网络进行线性回归。问题是，我在Pytorch中找不到任何可以让我获得Keras或SKlearn中线性回归模型的准确性的东西。在keras中，只需在编译函数中设置metrics=["accuracy"]即可。我在Pytorch的文档和官方

浏览 16提问于2019-10-06得票数 1

4回答

XOR未使用Kerasv2.0学习

python、numpy、neural-network、keras

一段时间以来，我在使用工具角时得到了相当糟糕的结果，而且对这个工具没有那么多的疑虑。但我现在开始有点担心了。import numpy as np model.add(Dense(2, input_dimnp.array([[0],[1],[1],[0]], "float32") mo

浏览 6提问于2017-05-03得票数 10

回答已采纳

4回答

L1正则化在Keras/Tensorflow 真的L1-正则化吗？

tensorflow、machine-learning、neural-network、deep-learning、keras

利用L1正则化方法对Keras中的神经网络参数进行keras.regularizers.l1(0.01)正则化，得到稀疏模型。我发现，虽然我的许多系数接近于零，但它们中的一些实际上是零。通过查看，它建议Keras简单地将参数的L1范数添加到损失函数中。这将是不正确的，因为参数几乎肯定永远不会像L1正则化时所期望的那样(在浮点错误范围内)变为零。

浏览 8提问于2017-03-31得票数 13

2回答

Keras不起作用时的基本二进制分类

python、tensorflow、machine-learning、keras、classification

我是ML的新手，我想用Keras执行最简单的分类:如果y> 0.5，那么label =1 (x无关紧要)，y< 0.5那么label =0 (x无关紧要)import math import matplotlib as mpl train_datamodel.compile(optimizer='a

浏览 0提问于2018-12-18得票数 1

3回答

tf.keras中线性回归模型调优的几个问题

regression、python、tensorflow、keras、matplotlib

我正在开发，它使用一个玩具数据集探索线性回归。建立并训练了一个线性回归模型，它与学习速度、时间和批次大小有关。我很难理解迭代是如何完成的，它是如何连接到“时代”和“批处理大小”的。这样我就可以看到“计算机”使用什么样的数据，把什么样的数据放入模型中，在每一次特定的迭代中得到什么样的模型结果，以及迭代是如何完成的。这给出了

浏览 7提问于2020-06-19得票数 7

3回答

迁移学习-- Val_loss奇怪的行为

machine-learning、deep-learning、conv-neural-network、image-recognition、transfer-learning

我正在尝试使用来自菲顿keras.application的MobileNetV2上的迁移学习。此外，我还使用了以下内容 model.compile(optimizer=opt, loss总而言之，训练的损失不再减少，而且仍然很高。这个模型也过拟合了。你可能会问，为什么我只添加了2个致密层，每个层有4个神

浏览 0提问于2019-06-03得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Tensorflow for XOR在500个时期后无法正确预测

学习率没有影响

不能用model.fit复制GradientTape

训练回归网络时的NaN损失

Keras中的策略梯度

为什么不同的批次大小在Keras中提供不同的精度？

梯度下降和随机梯度下降有什么区别？

具有相同标签的批处理的每个成员有多大的问题？

在keras中使用批处理标准化进行微调

使用GradientTape而使用model.fit()改进模型

Keras模型evaluate()和predict_classes()给出了相互矛盾的结果

在运行“构建您自己的联邦学习算法”教程时，Tensorflow federated ( TFF ) 0.19的性能明显低于TFF 0.17

Keras中的自定义损失函数应该返回该批的单个损失值，还是返回培训批中每个样本的损失数组？

如何用pytorch评估和获得前馈神经网络的精度

XOR未使用Kerasv2.0学习

L1正则化在Keras/Tensorflow 真的L1-正则化吗？

Keras不起作用时的基本二进制分类

tf.keras中线性回归模型调优的几个问题

迁移学习-- Val_loss奇怪的行为

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐