如何在小批量上累积损失，然后计算梯度

python、tensorflow、reinforcement-learning、tensorflow-gradient、policy-gradient-descent

我的主要问题是:平均损失是否等同于平均梯度，以及如何在小批量上累积损失，然后计算梯度？我一直试图在Tensorflow中实现策略梯度，但遇到了一个问题，即我无法一次将所有游戏状态都输入到我的网络中，然后进行更新。问题是，如果我降低网络大小，然后一次在所有帧上训练，并取损失的平均值，那么它开始很好地收敛。但是如果我在小批量

浏览 20提问于2019-03-18得票数 2

2回答

如何处理火炬中的小批量损失？

pytorch、loss

我给小批量数据建模，我只想知道如何处理损失。我能不能累积损失，然后召唤落后的人，比如：loss = model.neg_log_likelihood(sentences, tags, length)optimizer.step() loss.backward()

浏览 0提问于2019-03-27得票数 5

1回答

随机梯度下降分批

machine-learning、deep-learning、linear-regression、gradient-descent

我对回归很陌生，我们在一门课程中做了一个非常简单的练习。我采取了一个基本的了解GD和SGD的线性回归。我的问题是，对于SGD来说，是简单地在小型批处理上执行算法，还是有某种结果的求和来给出最终的答案？抱歉，如果我没有用正确的术语来问，我对一些涉及的数学概念是更新的。

浏览 0提问于2018-04-24得票数 0

回答已采纳

2回答

我的批量累计执行是否正确？

python、machine-learning、deep-learning、pytorch

我想知道我用于训练批量累积模型的代码是否正确。特别是关于损失计算的部分，因为我不确定这是不是正确的方法。

浏览 32提问于2020-09-14得票数 0

回答已采纳

1回答

文本二值分类训练中的波动损失

python、machine-learning、pytorch、huggingface-transformers、allennlp

即使F1评分和准确度相当高，我也对训练损失的波动感到困惑。培训集：57K示例

浏览 2提问于2020-09-04得票数 5

3回答

什么是神经网络的新纪元？

neural-network、epoch

什么是神经网络中的纪元EPOCH用于更新权重。更改"Training data(Input data)"？

浏览 0提问于2016-05-16得票数 1

1回答

连体网络的参数更新对比损失训练

deep-learning、neural-network、pytorch、conv-neural-network、loss-function

我试图实现一个相当简单的暹罗网络和一个对比损失函数。我使用经过预先训练的VGG16作为骨干模型，并从编码器中去掉最后的ReLU和MaxPooling。然后添加一个自适应池和一个简单的线性层来生成嵌入向量。问题:可以在我的MWE输出中看到，参数列表中的元素25和27不会接收更新。梯度都是零..。，为什么？附加:如果一个输入大于224x224，例如input_1 = torch.randn(4, 3, 400, 224)，最后一个卷积的偏差就会被更新。

浏览 5提问于2022-04-27得票数 1

1回答

如何在Pytorch中实现JSD损失上限？

python、deep-learning、pytorch

但是，我怀疑这不是创建自定义损失的方法。任何形式的帮助都是非常感谢的！提前感谢:)

浏览 4提问于2017-12-13得票数 3

2回答

带Dropout层的Keras小型批处理梯度下降

tensorflow、keras、deep-learning、neural-network、dropout

最初的文件说：但是它是如何在Keras中实现的呢？据我所知，对于批处理中的每个样本，根据当前模型计算单个梯度(作为不同样本下降的不同单位)。接下来，在对来自批处理的所有样本进行处理之后，对每个权重各自的梯度进行求和，将这些和除以bat

浏览 5提问于2020-02-19得票数 0

1回答

如何将单个批处理划分为多个调用以节省内存

tensorflow

我有一个有点大的模型，它只能在小批量的GPU上训练，但我需要使用更大的批量(从其他实验中，我知道这提高了最终的准确性和收敛时间)。Caffe通过'iter_size‘选项为这个问题提供了一个很好的解决方案，它将一个批次分割成n个较小的批次，累积n个梯度，然后更新一次如何在TensorFlow中有效地实现这一点？

浏览 9提问于2016-08-16得票数 1

2回答

如何在tensorflow 2.0中积累梯度？

python、tensorflow、tensorflow2.0

我构建的模型可以处理可变分辨率(conv层，然后是全局平均)。我的培训集非常小，我想在一批中使用完整的培训集。因为我的图像有不同的分辨率，所以我不能使用model.fit()。因此，我计划将每个示例单独通过网络，累积错误/梯度，然后应用一个优化步骤。我能计算损失值，但我不知道如何累积损失/梯度。如何累积损失/梯度，然后应用单个优化器

浏览 4提问于2020-01-24得票数 6

回答已采纳

1回答

Keras GradientType:计算相对于输出节点的梯度

python、tensorflow、keras、reinforcement-learning、gradienttape

基本上，他们创建了一个包含两个独立输出的模型:一个用于参与者(n操作)，另一个用于评论家(1奖励)。model.trainable_variables)尽管演员和评论家的损失计算不同，但他们将这两种损失相加，得到了用于计算梯度的最终损失值。在查看这个代码示例时，我想到了一个问题:是否有一种方法可以计算输出层相对于相应损耗的

浏览 3提问于2022-01-18得票数 0

回答已采纳

1回答

您应该在哪个阶段绘制验证和学习曲线？

machine-learning

我不打算微调它和使用网格搜索算法，然后继续选择最佳的超级参数w.r.t的准确性评分。但是，我不应该更早地绘制学习曲线吗?例如，在我选择从后勤部门开始的第一步。模特？

浏览 0提问于2020-09-14得票数 0

2回答

在暹罗建筑中，梯度是如何飞回网络的？即使使用不同的模型，所有CNN模型的权重也是相同的。

machine-learning、neural-network、deep-learning、cnn、siamese-networks

博士:暹罗网络中梯度流背后的直觉？3种型号怎么能有相同的重量？如果使用1模型，如何从3条不同的路径更新梯度？此外，让我们假设它只是一个网络(无法假设，如何，请帮助)，然后在第一个时代，它将给出默认权重(如果使用ImageNet)。但是当梯度返回到网络时，这些梯度是如何更新的呢？因为有3条不同的路径来自同一个模型，以及梯度将如何返回到这些路径？当然，这是不可能的(我想不出是怎么做到的)，如果是顺序的话，那是如何实现的呢?因为输出是按顺序提供的，但是梯度不能以这种方式返回呢

浏览 0提问于2021-01-04得票数 1

1回答

验证损失有时会达到峰值

python、keras、deep-learning

有时，我的val损失是峰值，但在那之后它又回到列车损失线以下。我的模型怎么了？任何答案都将不胜感激。提前感谢！ ? 

浏览 31提问于2020-04-18得票数 0

回答已采纳

1回答

训练神经网络时出现极小或NaN值

algorithm、haskell、neural-network、backpropagation

但问题是，层大小(比方说1000)、小批量大小和学习率的某些组合会在计算中产生NaN值。经过一些检查后，我看到非常小的值(1e-100的顺序)最终出现在激活中。下面是实际的梯度计算： -- Forward propagation: compute layers outputs and activation也就是说，ds是增量矩阵的列表，其中每一列对应于小批量的一行的增量。因此，偏差的梯度是所有小批量的增量的平均

浏览 4提问于2017-06-22得票数 329

1回答

在LSTM Matlab中“`MiniBatchSize`”参数的含义是什么？

matlab、machine-learning、neural-network、deep-learning、lstm

我使用的是LSTM结构： sequenceInputLayer(1) fullyConnectedLayer(2) classificationLayer 'MaxEpochs',30, ... 'MiniBatchSize', 150, .

浏览 1提问于2018-09-19得票数 0

回答已采纳

1回答

如何在Theano中汇集渐变？

theano

我正在执行一种随机梯度下降，但对于小批量中的每个样本，我需要执行一个采样过程来计算梯度。在Theano中，有没有一种方法可以在我对小批量中的每个数据点执行采样过程时汇集梯度，然后才执行梯度更新？

浏览 0提问于2015-01-18得票数 0

1回答

在深入强化学习的背景下，批量大小的含义是什么？

reinforcement-learning、batchsize

批次大小是指在监督学习中接受神经工作训练的样本数，但是，在强化学习的背景下，批次大小的意义是什么？它也是指样品吗？如果是的话，在强化学习的背景下，样本的意义是什么？

浏览 0提问于2019-04-02得票数 3

回答已采纳

1回答

PyTorch中生成对抗网络(GAN)的训练生成器

machine-learning、deep-learning、pytorch、generative-adversarial-network

为了计算生成器的损失，我计算了鉴别器错误分类全真小批次和全(生成器生成的)假小批次的负概率。然后，我按顺序向后传播这两部分，最后应用阶跃函数。计算和反向传播作为所生成的假数据的错误分类的函数的部分损失似乎是直接的，因为在该损失项的反向传播期间，反向路径通过首先产生假数据的生成器。然而，所有真实数据小批量的分类并不涉及通过生成器传递数据。因此，我想知道下面的代码片段是否仍然会为生成器计算梯度，或者它是否根本不会<em

浏览 34提问于2020-06-06得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何处理火炬中的小批量损失？

随机梯度下降分批

我的批量累计执行是否正确？

文本二值分类训练中的波动损失

什么是神经网络的新纪元？

连体网络的参数更新对比损失训练

如何在Pytorch中实现JSD损失上限？

带Dropout层的Keras小型批处理梯度下降

如何将单个批处理划分为多个调用以节省内存

如何在tensorflow 2.0中积累梯度？

Keras GradientType:计算相对于输出节点的梯度

您应该在哪个阶段绘制验证和学习曲线？

在暹罗建筑中，梯度是如何飞回网络的？即使使用不同的模型，所有CNN模型的权重也是相同的。

验证损失有时会达到峰值

训练神经网络时出现极小或NaN值

在LSTM Matlab中“`MiniBatchSize`”参数的含义是什么？

如何在Theano中汇集渐变？

在深入强化学习的背景下，批量大小的含义是什么？

PyTorch中生成对抗网络(GAN)的训练生成器

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐