使用Adam优化器在FashionMNIST上训练逻辑回归时出错_在GPU上使用tensorflow训练模型，使用Adadelta优化器无法工作。但当我用Adam替换Adadelta时，似乎没有任何问题。 - 腾讯云开发者社区

、、、

数据集为FashionMNIST (784输入，10输出)。我正在尝试使用Adam优化器训练逻辑回归(也进行了编码)： weights = torch.randn(784, 10) / math.sqrt(784)cr

浏览 20提问于2020-10-29得票数 0

1回答

模型训练中的精确噪声模式

、、、

我在一个小数据集上训练一个逻辑回归模型。我有大约1300个样本，我分成训练和测试组(分别占70%和30% )。这是在培训时可能发生的事情，没有后果，还是反映了我的数据/培训

浏览 0提问于2019-09-10得票数 1

回答已采纳

1回答

在Tensorflow中，损失随Adam优化器的突然增加而增加

、、、

我用CNN做回归任务。我使用Tensorflow，优化器是Adam。该网络似乎完全收敛，直到一个点，损失突然增加，随着验证错误。以下是标签和权重的损失图(对它们的和运行优化器) 我使用l2减肥来调整体重，也使用标签。我在训练数据上应用了一些随机性。我目前正在尝试RSMProp看看行为是否发生了变化，但至少需要8小时才能重现错误。我想了解这是如何发生的。希

浏览 2提问于2017-02-14得票数 20

1回答

损失的选择为L2，优化器为标准梯度下降。预测器用X_train = numpy.arange(0.0, 314.1, 0.1)和Y_train = numpy.sin(X_train)训练。它随后在X_test= numpy.arange(-10.0, 10.0, 0.001)和Y_test = numpy.sin(X_test)上进行了测试，但是预测器对测试数据的性能很差。有什么会出错的？训练数据太少，无法对网络进行训练。添加更多数据，特别是当X&

浏览 0提问于2018-02-22得票数 1

2回答

Keras编码器-解码器模型RuntimeError:您必须在使用模型之前编译它

、、

steps_per_epoch=sd.no_samples/batch_size, epochs=epoch, verbose=2, 但是，当调用fit_generator时，

浏览 4提问于2018-09-20得票数 3

1回答

kernel_initializer、激活函数和回归优化器的最优排列

、、

我使用kernel_initializer='normal‘和optimizer='adam’来找到最佳回归解决方案。我在训练数据上接近0.94的准确率。我想测试一些其他的kernel_initializer，激活函数和优化器组合，但我不确定kernel_initializer和激活函数对回归效果很好。kernel_initializer='normal')) mo

浏览 21提问于2020-08-24得票数 0

3回答

AssertionError:如果capturable=False，state_steps不应该是CUDA张量

、

在Google上加载上一个时代的模型权重时，我得到了这个错误。我使用的是PyTorch版本1.12.0。我不能降级到更低的版本，因为我使用的是外部库，需要Pytorch 1.12.0 谢谢!

浏览 107提问于2022-07-24得票数 3

4回答

随机梯度下降是分类器还是优化器？

、、、

我在sklearn库中偶然发现了SGDClassifier。但许多论文都将SGD作为一种优化技术。有人能解释一下SGDClassifier是如何实现的吗？

浏览 1提问于2017-08-02得票数 7

1回答

在回归神经网络的Keras中使用SGD优化器的NAN值

、、、、

朋友, 我试着训练一个神经网络来进行回归。当使用Keras的SGD优化器类时，在第一步之后，我突然从我的网络中获得了NaN值作为预测。在我使用Adam优化器类进行训练之前，一切都运行得很好。因为我的训练是使用Adam优化器的，所以我不认为我的输入会导致NAN，我已经检查了我的

浏览 4提问于2021-01-10得票数 0

2回答

默认的Adam优化器在tf.keras中不起作用，但字符串`adam`可以

、、、、

我一直在试用TensroFlow v2测试版，我也在试用tf.keras型号。model.compile(optimizer='adam', loss='categorical_crossentropy')但是，当我尝试使用默认优化器</

浏览 32提问于2019-07-11得票数 7

回答已采纳

1回答

在tensorflow中使用不同的优化器来训练同一层

、

我在fer数据集上训练了这个模型。这是一个输出数等于8的分类问题。因此，我在一开始就使用了一个优化器来训练整个模型。然后，我创建了一个新的优化器来微调完全连接的层，同时对最后一层进行培训。因此

浏览 0提问于2018-10-24得票数 2

回答已采纳

2回答

重置Adam优化器可减少验证损失。

、、、

我正在LibriSpeech上训练一个递归神经网络。在每次训练中，我都尝试过不同的学习速度、批次大小等不同的变化，有一件事是相似的，那就是验证损失在7周期后就会饱和。我想这可能是因为太合适了。但是，我注意到了一种奇怪的行为，在重置Adam优化器之后，即它的槽变量m和v，经过7次训练后，验证损失减少到比前一个更低的最小值，然后在其余的训练中开始围绕这个值振荡。我推测，由于较长的训练周

浏览 5提问于2020-09-22得票数 0

1回答

多元logistic回归与N1与全二元的差异

、

与单一的多元logistic回归训练相比，在1对所有时尚中建立N个逻辑回归集有根本的区别吗？换句话说，是否有任何优化技术以与N个独立回归明显不同的方式处理1到N类逻辑回归问题？从直觉上看，答案应该是肯定的，因为如果两个类是相似的，那么在不同的问题之间应该有大量的信息共享。但是，由于我对1到N的求解器的实际工作方式并不十分熟悉，所以我无法判断我是否正确，或者这些问题是以基本相同的方式

浏览 0提问于2015-11-11得票数 4

1回答

当使用FP32而不是FP16时，Keras中的Adam优化器可以工作，为什么？

、

我注意到，当使用FP16，mse作为损失函数，adam作为优化器在Keras中训练序列模型时，损失无法计算，我得到了nan值。在使用FP32或使用FP16更改优化器时没有问题(我尝试过adamax和sgd)。是我遗漏了什么，还是adam的实现有什么问题？代码片段可在here中找到

浏览 10提问于2018-12-25得票数 1

回答已采纳

1回答

如何在Tensorflow中正确地设置Adadelta算法的参数？

、、

我一直在使用Tensorflow进行回归。我的神经网络很小，有10个输入神经元，12个单层隐神经元和5个输出神经元。然而，当我尝试使用阿德罗塔时，神经网络根本就不会训练。变量在每一步都保持不变。

浏览 1提问于2016-07-28得票数 9

2回答

变压器解码器是一个自回归模型吗？

、

我一直在试图找出这些问题的答案，但我只找到了相互矛盾的信息。变压器作为一个整体是否自回归？解码器呢？我知道在推理过程中译码器进行了自回归，但我不确定在训练期间。这里有一些帖子说变压器不是自回归的：在测试阶段，变压器解码<e

浏览 0提问于2021-11-15得票数 8

3回答

在python中SGD分类器和SGD回归器有什么不同？

、、

在python sklearn中，SGD分类器和SGD回归器有什么不同？另外，我们可以设置批处理大小以提高性能吗？

浏览 3提问于2019-02-15得票数 1

1回答

python/sklearn中的不等错误分类代价

、、

我想知道是否有一种方法可以在sklearn/python中指定自定义成本函数？传递class_weight ={1:2，1:1:2}只会增加对第1类和第3类错误分类的权重，但是，我希望我的模型在选择1类时得到更大的惩罚，而真正的类是3类，反之亦然。在滑雪板上能做这样的事情吗？

浏览 4提问于2016-06-03得票数 8

1回答

损失随批处理归一化(tf.Keras)增加

、、、

我有一个带有2个隐藏层的FF神经网络，用于解决回归问题。与不添加BN时相比，在相同的时期数上训练时，损失(MSE)约为两倍，执行时间也增加了约20%。为什么会这样呢？如果我不得不猜测-- BN在2层网络上是不值得的，并且BN引入的额外开销实际上比它导致的处理时间的减少更高。model.add(Dense(1, 'linear')) mode

浏览 2提问于2018-06-27得票数 1

1回答

GPflow中的Adam优化器正在处理哪种类型的参数，受约束的还是不受约束的？

、、

在和等GPflow的文献中，在使用随机变分推理技术训练GP模型的参数(长度、方差、诱导输入等)时，使用了TensorFlow中的Adam优化器，而对于变分参数，则使用了自然梯度优化器。代码段如下所示 """ Utility function runnin

浏览 18提问于2020-05-25得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云