为什么在时间的反向传播中增加梯度而不是平均？

recurrent-neural-network、backpropagation

在RNN的后向传递的以下实现中，通过在每个时间步长添加计算的梯度来计算Wh、Wx和b的梯度。直观地说，这是做什么的，为什么它们不能被平均？

浏览 32提问于2019-03-22得票数 1

1回答

激活函数的导数必须在[0,1]的范围内吗？

deep-learning、recurrent-neural-network、activation-function

我发现常见的激活函数的导数在0,1之间。https://ml-cheatsheet.readthedocs.io/en/latest/activation_functions.html 这是RNN中梯度消失的原因。当激活函数首次引入深度学习时，导数保持在0,1的原因是什么？如果我们使用Relu的变体，比如f(x) = max(0，2x)，导数在0,2范围内，那么MLP

浏览 12提问于2019-04-30得票数 0

2回答

Theano --梯度平方的平均值

neural-network、gradient、theano

在theano中，给定一个具有形状的批量成本cost (batch_size，)，很容易计算平均成本的梯度，就像在T.grad(T.mean(cost,axis=0),p)中一样，其中p是计算cost时使用的参数通过在计算图中反向传播梯度，可以有效地实现这一点。我现在想做的是计算批次上的平方梯度的平均值。lam

浏览 0提问于2016-03-23得票数 2

1回答

在激活函数的反向传播过程中，我们为什么要用梯度而不是除法来乘δ？

machine-learning、neural-network、deep-learning、gradient-descent、backpropagation

在激活函数的反向传播过程中，为什么要用delta而不是gradient来代替division？(反向传播)：if(x > 0) gradient = 1; else gradient = 0.1;，然后是new_delta = delta * gradient --这是与正向if(delta >另外，众所周知的gradient = dY / dX 在梯

浏览 3提问于2019-06-24得票数 1

1回答

从反向传播的角度理解乙状结肠曲线后的直觉

logistic-regression、gradient-descent、backpropagation、sigmoid

我试图理解S型乙状结肠/ logistic功能的意义。对于很大和很小的输入值，乙状结肠的斜率/导数接近于零。这是σ'(z) ≈ 0表示z > 10或z < -10。因此，对权重的更新将更小。我不明白“为什么在z太大太小的时候进行更小的更新”和“对于不太大的/不太小的z进行更大的更新”。我读到的一个理由是，它会压缩“异常值”。但是

浏览 0提问于2021-09-26得票数 0

1回答

计算坡度的平均值

gradient-descent

我目前正在研究反向传播过程和梯度体面算法，形成了由Michael和3 Blue1Brown通道在YouTube中编写的“神经网络和深度学习”一书。我的问题是计算梯度体面算法中的梯度(整个数据集作为输入)。📷 例如，我们有100万张手写数字图像，通过第一次迭代，我们向网络提供了这100万张图像。然后计算出每幅图像的<

浏览 0提问于2019-11-06得票数 2

回答已采纳

1回答

批次归一化能代替RNN中的tanh吗？

rnn、batch-normalization

为什么我们需要LSTM单元中的第二个tanh() 考虑到重复的反向传播机制，递归神经网络的一个问题是潜在的爆炸梯度.在加法算子之后，c(t)的绝对值可能大于1。通过一个tanh算子可以保证该值再次在-1到1之间进行缩放，从而增加了在多个时间步长的反向传播过程中</em

浏览 0提问于2021-04-05得票数 1

2回答

为什么在SGD中取平均误差的梯度不正确，而只取单个误差梯度的平均值？

machine-learning、optimization、gradient-descent、mini-batch-gradient-descent

对于成本函数和SGD的平均值，我有点困惑。到目前为止，我一直认为，在SGD中，您需要计算批处理的平均错误，然后将其反向传播。但后来我在这个问题上的评论中被告知，这是错误的。您需要分别反向传播批处理中每个项的错误，然后平均通过反向传播计算的梯度，然后用缩放<e

浏览 0提问于2019-07-25得票数 8

1回答

LSTM的时间反向传播(BPTT)

tensorflow、backpropagation、lstm

目前，我正试图理解TensorFlow中的LSTM的BPTT。我得到参数"num_steps“用于RNN展开和错误反向传播的范围。我有一个一般性的问题，这是如何运作的。问题：，哪些路径被反向传播了那么多步骤？恒等误差旋转木马由公式5创建，反传播(s(t)->s(t-1))的导数对于所有时间步骤都是1。这就

浏览 4提问于2016-11-29得票数 1

1回答

如何在小批量中积累梯度，然后在Chainer中反向繁殖？

chainer、chainercv

我正在对视频序列进行分类，我需要两件事：由于GPU内存有限，我希望通过小型批处理积累梯度，然后是平均梯度值，然后是反向传播。我需要知道如何洗牌之间的小批，但不是洗牌在每个小批，因为我希望视频序列保持其秩序。

浏览 4提问于2018-01-23得票数 3

回答已采纳

1回答

培训样本的成本函数与小批量成本函数的差异

matlab、training-data、mini-batch

对于一个训练样本:它通过'NN‘引入，输出出一个输出(Out1)，输出与训练标签进行比较，用反向传播算法，'NN’的每个参数都有小的变化(正或负)。代价函数用维数为1x500的向量表示，所有的小修改都是由反向传播算法得到的。让我们说mini_batch_size=10 对于一个小批量:10个培训样本中的每一个都提供一个维度1x500的成本函数。为了更好地可视化和解释，我们创建了一

浏览 9提问于2020-03-21得票数 0

回答已采纳

2回答

反向传播中的梯度检验

neural-network、backpropagation

我试图实现一个简单的前馈神经网络的梯度检查，它包含两个单位输入层，两个单位隐层和一个单位输出层。我要做的是：利用两种前馈传播的结果计算数值梯度。我不明白的是如何准确地执行反向传播。通常，我将网络的输出与目标数据进行比较(在分类的

浏览 6提问于2014-10-04得票数 6

回答已采纳

1回答

LSTM NN:前向传播

neural-network、time-series、lstm、recurrent-neural-network

我有前向传播working...but，我有几个关于前向传播中的移动部分的问题，在经过训练的模型、反向传播和内存管理的上下文中。因此，现在，当我运行前向传播时，我将新列( f_t, i_t, C_t, h_t, etc )堆叠在它们相应的数组上，因为我积累了以前用于bptt梯度计算的位置。3) ，如果我有有限的时间</e

浏览 3提问于2016-01-05得票数 1

回答已采纳

1回答

LSTM损耗函数与反向传播

lstm、rnn、training、backpropagation

我试图理解损失函数和反向传播之间的联系。据我所知，在LSTM算法中，反向传播被用来获取和更新矩阵，在前向传播中使用偏差来获取当前的单元和隐藏状态。损失函数取训练集的预测输出和实际输出。但哪一部分是LSTM的培训部分？它们之间有某种联系吗？LSTM模式的培训目标是什么？

浏览 0提问于2019-08-31得票数 0

1回答

反向传播的内存需求-为什么不使用平均激活？

tensorflow、memory、keras、neural-network、backpropagation

我需要帮助理解记忆需求的神经网络和他们之间的训练和评估过程的区别。更具体地说，培训过程的内存需求(我使用的是运行在TensorFlow之上的Keras )。在前传中，GPU需要额外的x*N内存单元(特定的数量对问题并不重要)来同时传递所有的样本并计算每个神经元的激活。我的问题是关于反向传播过程，对于每个样本的每个权重的特定梯度，

浏览 0提问于2018-11-13得票数 3

回答已采纳

3回答

在神经网络中，是否有可能用一个以上的输入进行梯度下降？

neural-network、gradient-descent、backpropagation

我最近读了一些教程、例子，所有的(不确定是否只是为了演示目的)都为一个输入做了梯度下降。为了深入了解反向传播，我编写了一个程序来做反向传播在线性/logistic回归中，通过多个输入和输出对成本的平均值进行梯度下降是有意义的，因为只有一层权重，而输入直接影响输出。在神经网络的情况下，我们得到一层激活(输出)，我们有一个形状匹配的期望输出，所以我们通过减去

浏览 0提问于2020-07-28得票数 0

回答已采纳

1回答

关于神经网络模型的查询

neural-network、supervised-learning、matlab、accuracy、training

利用matlab中的神经网络工具箱对数据进行训练。我使用了四种训练算法:缩放共轭梯度(SCG)、带动量梯度下降和自适应学习反向传播(GDX)、弹性反向传播(RBP)和Broyden Goldfarb-Shanno拟牛顿反向传播(BFG)。我已将种子固定在不同的点上，并获得了精确度。我得到的是：第一列包含功能集的大小。我增加了特性并

浏览 0提问于2016-08-24得票数 1

回答已采纳

3回答

具有客观损失反向传播的梯度下降并不能使损失最小化

python、machine-learning、neural-network、gradient-descent

下面是实现渐变下降的代码： def __init__(self): self.weights= sum((i-j)**2 for i,j in zip(expected_res, actual_res))我试图用它将一组3D点分类为两个不同的组calculate_loss()函数是根据物体丢失函数的导数(梯度)实现的

浏览 19提问于2022-10-18得票数 0

回答已采纳

1回答

如何利用火炬优化LSTM中的梯度流？

time-series、lstm、pytorch、recurrent-neural-network

我在lstm中使用时间序列数据，我在网络的梯度中观察到了一个问题。我有121个lstm细胞。对于每个单元格，我有一个输入值，我得到一个输出值。一旦得到输出(尺寸为121,121，1的张量)，我就使用MSELoss()计算损失，并将其反向传播。问题就在这里。查看每个单元格的梯度，我注意到前100个单元格的梯度(或多或少)是空的。理论上，如果我没有错的话，当我反向<e

浏览 2提问于2019-04-27得票数 4

回答已采纳

2回答

BPTT与消失梯度问题

deep-learning、rnn、backpropagation

我知道BPTT是在RNN上应用反向传播的方法。但这不正是消失梯度问题吗？如果它是相同的，那么为什么它有两个名称，一个是问题，一个是方法。如果没有，我在这里错过了什么，他们之间有什么区别？

浏览 0提问于2019-08-07得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

激活函数的导数必须在[0,1]的范围内吗？

Theano --梯度平方的平均值

在激活函数的反向传播过程中，我们为什么要用梯度而不是除法来乘δ？

从反向传播的角度理解乙状结肠曲线后的直觉

计算坡度的平均值

批次归一化能代替RNN中的tanh吗？

为什么在SGD中取平均误差的梯度不正确，而只取单个误差梯度的平均值？

LSTM的时间反向传播(BPTT)

如何在小批量中积累梯度，然后在Chainer中反向繁殖？

培训样本的成本函数与小批量成本函数的差异

反向传播中的梯度检验

LSTM NN:前向传播

LSTM损耗函数与反向传播

反向传播的内存需求-为什么不使用平均激活？

在神经网络中，是否有可能用一个以上的输入进行梯度下降？

关于神经网络模型的查询

具有客观损失反向传播的梯度下降并不能使损失最小化

如何利用火炬优化LSTM中的梯度流？

BPTT与消失梯度问题

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐