如果我们通常应该平均梯度(而不是损失)，为什么我们要对批次中所有元素的损失进行平均？

python、pytorch、gradient

我的loss输出是 tensor([0.0430, 0.0443, 0.0430, 0.0430, 0.0443, 0.0466, 0.0466, 0.0466], grad_fn=<AddBackward0为什么使用.mean().backward()，即如果我们通常应该平均梯度(而不是损失)，为什么我们要对批次</

浏览 36提问于2020-05-01得票数 1

2回答

或者平均更新？

tensorflow、deep-learning、mnist

关于神经网络的批量训练，我很少有疑问。否则，如果答案是梯度的平均</e

浏览 2提问于2017-07-18得票数 6

回答已采纳

3回答

噪声训练损失

machine-learning、neural-network、deep-learning、tensorboard、loss

我正在训练基于编解码注意力的模型，批量大小为8。我不怀疑数据集中有太多的噪音，但是示例来自几个不同的分布。 

浏览 4提问于2018-02-02得票数 12

回答已采纳

2回答

Keras训练过程中损失的移动平均

python、tensorflow、keras、deep-learning、neural-network

当我损失和迭代次数时，在每一个时代之后，损失都会有一个显著的跳跃。实际上，每个迷你批次的损失应该各不相同，但是Keras计算的是小批的移动平均损失，这就是为什么我们获得了一条平滑的曲线而不是任意的曲线。移动平均线的阵列在每一个时代之后都会被重置，因此

浏览 4提问于2022-04-29得票数 1

回答已采纳

1回答

一种批量计算损失函数的有效方法？

tensorflow、keras、bigdata

我正在使用自动编码器进行异常检测。因此，我已经完成了对模型的训练，现在我想计算数据集中每个条目的重建损失。这样我就可以将异常分配给重建损失较高的数据点。我尝试过更改批处理大小，但没有太大区别。我必须使用转换为张量部分

浏览 79提问于2019-05-22得票数 1

回答已采纳

3回答

损失函数适用于reduce_mean，但不适用于reduce_sum

tensorflow

我是张量流的新手，并且一直在看示例。我想将多层感知器分类模型重写为回归模型。然而，在修改损失函数时，我遇到了一些奇怪的行为。它在tf.reduce_mean上工作得很好，但是如果我尝试使用tf.reduce_sum，它会在输出中给出nan。这似乎非常奇怪，因为函数非常相似-唯一的区别是平均值除以元素的数量？所以我看不出这个变化是如何引入nan的？它应该用来代替mse。在se中，结果

浏览 0提问于2017-01-31得票数 13

回答已采纳

1回答

PyTorch中不同降阶方法计算梯度的差异

deep-learning、pytorch、backpropagation

我在使用内置损失函数中提供的不同的还原方法。特别是，我想比较以下几点。对用reduction="none"计算的每个损失值执行反向传递的平均梯度reduction="mean"产生的平均梯度平均梯度</em

浏览 0提问于2019-07-05得票数 14

1回答

tensorflow是否可以单独优化每个元素的损失，而不是优化整个平均损失？

tensorflow、optimization、loss

tensorflow如何单独优化批次的元素损失，而不是优化批次损失？在对每个批次的损失进行优化时，常用的方法是对所有批次的元素损失进行求和或取其平均值作为批次损失，然后对该批次

浏览 17提问于2019-04-19得票数 0

2回答

SGD背后的核心理念

machine-learning、neural-network、deep-learning、sgd

Hinton在他的通俗课程中提到了以下事实：当我们有非常大的数据集并且需要执行小型批处理权重更新时，Rprop实际上不起作用。为什么它不适用于小型批次？嗯，人们试过了，但发现很难让它发挥作用。它不起作用的原因是它违背了随机梯度下降背后的中心思想，即当我们有足够小的学习率时，它会在连续的小批上平均梯度。考虑权重，它得到了梯度0.1在九个迷你<em

浏览 0提问于2020-09-29得票数 3

3回答

随机梯度下降增加成本函数

machine-learning、neural-network、gradient-descent

在神经网络中，梯度下降会查看整个训练集以计算梯度。成本函数随着迭代的进行而减小。如果代价函数增加，通常是因为错误或不适当的学习率。相反，随机梯度下降计算每个单个训练示例的梯度。我想知道成本函数是否有可能从一个样本增加到另一个样本，即使实现是正确的并且参数调整得很好。我有一种感觉，代价函数的异常增量是可以的，因为梯度</

浏览 2提问于2018-05-16得票数 0

1回答

Tensorflow NMT和注意教程--需要帮助理解损失函数

python、tensorflow

如果有人能帮助我澄清或推荐我到一个来源/更好的地方问问题，那就太好了： 1) def loss_function(real, pred)：该函数在特定的时间步骤(例如t)计算损失，在整个批处理中平均计算，我的问题，：似乎损失应该越小，t越大(因为更多的例子是<pad>，我们就越接近最大长度)。那么，为什么损失在整个批中平均，而</em

浏览 0提问于2018-11-03得票数 1

1回答

为什么随机梯度下降不波动

machine-learning、deep-learning、pytorch、gradient-descent

在间歇梯度下降中，参数是根据随机梯度下降或SGD中所有点的总损失/平均损失来更新的，我们是在每一个点之后更新参数，而不是一个时代。因此，让我们说，如果最后一点是一个离群点，不会导致整个拟合线剧烈波动。或者收敛在像这样的等高线上

浏览 2提问于2020-05-30得票数 0

回答已采纳

3回答

具有相同标签的批处理的每个成员有多大的问题？

classification、class-imbalance、mini-batch-gradient-descent

我有128个批次大小和大约1000万个数据大小，我将在4个不同的标签值之间进行分类。例如，批处理0都有第三个标签。第一批都有第一批。第二批。等。

浏览 0提问于2020-07-01得票数 2

回答已采纳

2回答

为什么在损失函数中使用平均值而不是总和？

tensorflow、keras、deep-learning、loss-function

为什么在损失函数中使用平均值而不是总和？ loss = tf.reduce_sum(tf.abs(y_true-y_pred))在Keras源代码中也使用了

浏览 2提问于2018-12-10得票数 2

2回答

基于tf.GradientTape的预训练模型迁移学习不能收敛

python、keras、tensorflow2.0、transfer-learning

我想用keras的预训练模型进行迁移学习from tensorflow import keras 使用keras编译/拟合函数进行训练可以收敛keras.losses.SparseCategoricalCross

浏览 0提问于2019-07-30得票数 1

2回答

Tensorflow Inception多个GPU训练损失不是总和吗？

neural-network、tensorflow、conv-neural-network

我正在尝试为多个GPU(在一台机器上)检查Tensorflow的初始代码。我很困惑，因为我们从不同的塔，也就是GPU得到了多个损失，据我所知，但loss变量似乎只计算了最后一个塔的损失，而不是所有塔的损失的总和： durati

浏览 2提问于2016-07-24得票数 2

2回答

📷假设我们有一个3乘1的神经网络，类似于图像中的神经网络(输入层有3个神经元，输出层有一个神经元，没有隐藏层)，当给神经网络输入一个训练样本(即feature1、feature2、feature3例如，我们有3×3矩阵的训练输入。我们知道，在向神经网络提供一个训练样本时，为了计算新的权重，我们依赖于这个公式: New_weights = Initial_weights - learning_rate×

浏览 0提问于2018-07-07得票数 3

1回答

.backward()中和与均值之差

machine-learning、pytorch

我知道我们在标量中转换张量，而不是向后()，但是什么时候求和，什么时候表示？

浏览 5提问于2022-05-30得票数 0

1回答

梯度/损失计算中的解耦脱队列操作

tensorflow

我目前正在尝试放弃使用提要，开始使用队列，以支持更大的数据集。对于tensorflow中的优化器来说，使用队列很好，因为它们只对每个去队列操作计算一次梯度。但是，我已经实现了与执行行搜索的其他优化器的接口，我不仅需要评估梯度，还需要评估同一批的多个点的损失。不幸的是，对于正常的排队系统，每个损失评估都将执行一个去队列，而不是对同

浏览 4提问于2016-12-06得票数 1

回答已采纳

2回答

如何获得每个时期的损失而不是每个批次的损失？

python、machine-learning、keras、generative-adversarial-network

在我的理解中，一个时期是对整个数据集的任意重复运行，而这些数据集又被分成几个部分进行处理，即所谓的批处理。在每次train_on_batch计算损失后，更新权重，下一批将获得更好的结果。这些损失是my to NNs质量和学习状态的指标。for epoch

浏览 1提问于2019-01-06得票数 7

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

或者平均更新？

噪声训练损失

Keras训练过程中损失的移动平均

一种批量计算损失函数的有效方法？

损失函数适用于reduce_mean，但不适用于reduce_sum

PyTorch中不同降阶方法计算梯度的差异

tensorflow是否可以单独优化每个元素的损失，而不是优化整个平均损失？

SGD背后的核心理念

随机梯度下降增加成本函数

Tensorflow NMT和注意教程--需要帮助理解损失函数

为什么随机梯度下降不波动

具有相同标签的批处理的每个成员有多大的问题？

为什么在损失函数中使用平均值而不是总和？

基于tf.GradientTape的预训练模型迁移学习不能收敛

Tensorflow Inception多个GPU训练损失不是总和吗？

如何优化神经网络在多个训练样本中的权重？

.backward()中和与均值之差

梯度/损失计算中的解耦脱队列操作

如何获得每个时期的损失而不是每个批次的损失？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐