在批处理上计算的函数的梯度 - 腾讯云开发者社区

、、、

我对回归很陌生，我们在一门课程中做了一个非常简单的练习。我采取了一个基本的了解GD和SGD的线性回归。据我理解，GD和SGD之间唯一的区别是，SGD不像GD中的处理那样对数据集大小m执行算法，而是对m的子集执行操作。我的问题是，对于SGD来说，是简单地在小型批处理上执行算法，还是有某种结果的求和来给出最终的答案？抱歉，如果我没有用正确的术语来问，我对一些涉及<em

浏览 0提问于2018-04-24得票数 0

回答已采纳

2回答

如何处理火炬中的小批量损失？

、

= model.neg_log_likelihood(sentences, tags, length)optimizer.step() loss.backward()或者，使用平均损失，就像tensorflow中的reduce_mean

浏览 0提问于2019-03-27得票数 5

2回答

GD、批GD、SGD和小型批处理SGD有什么不同？

、、

这四种梯度下降函数之间有何不同？批GD小批量SGD

浏览 0提问于2019-06-15得票数 3

回答已采纳

1回答

批处理梯度下降的Sklearn实现

、、

采用滑雪板进行分类是如何实现批处理梯度下降的？本文给出了随机GD的SGDClassifier (一次单实例)和线性/Logistic回归(采用正规方程)。

浏览 0提问于2019-04-06得票数 2

回答已采纳

1回答

为什么渐变检查在批归一化不起作用？

、、、

我有一个具有学习速度、动量、L1/L2正则化和批归一化的神经网络的自实现。当我执行梯度检查时，所有梯度都是正确的，除非我使用批处理归一化。我编写了python代码，仅用于测试批处理规范化上的梯度检查：我

浏览 1提问于2018-04-28得票数 0

1回答

如何计算损失函数？

、、、、

我希望你做得好，我想问一个关于神经网络中损失函数的问题。我知道，对训练集中的每个数据点计算损失函数，然后根据是否使用批处理梯度下降(在所有数据点通过后进行反向传播)、小批处理梯度下降(批处理后进行反向传播)或随机梯度下降(在每个数据点之后进行反向传播)进行反向传播现在让我们来看看MSE损失函数：为什么n是数据点的数目?，因为如果我们

浏览 0提问于2022-05-25得票数 1

回答已采纳

2回答

带Dropout层的Keras小型批处理梯度下降

、、、、

任何不使用参数的训练案例都会为该参数贡献0的梯度。在查看源代码

浏览 5提问于2020-02-19得票数 0

1回答

LSTM批量大小和序列长度对内存的影响

、、、

我有一个关于批次大小和顺序长度的问题。假设我有10个不同的独立时间序列，每个时间序列的长度为100。现在，第一次尝试，假设我可以输入长度为100的测试样本。我该怎么做？我会创建一个LSTM，然后一次输入形状为10,100，1的数据吗？或者我会输入形状为1,100，10次的数据吗？这里

浏览 0提问于2018-07-27得票数 0

1回答

文本二值分类训练中的波动损失

、、、、

我在网上读到的原因可能是：太高的学习率，但我尝试了3个数值(1e-4，1e-5和1e-6)，它们都取得了同样的效果。一小批大小我使用的是一台笔记本电脑p2.8xlarge，它有8xK80GPU。我可以使用的每一个GPU的批处理大小，以避免CUDA内存错误为1。所以批处理的总大小是8。我的直觉是，对于包含57K示例的数据集(每个时代7K步)来说，8的bs太小了。不幸的<

浏览 2提问于2020-09-04得票数 5

1回答

如何在TensorFlow中计算子梯度？

、

TensorFlow中的自动微分过程是否在需要时计算次梯度？如果有许多子梯度，那么将选择哪一个作为输出？我正在尝试在link <code>C0</code>中实现这篇论文，它使用递归神经网络来执行有效的语言解析。目标函数使用铰链损失函数来选择最优输出向量，这使得该函数不可微。我在急切模式下使用TensorFlow (v1.12)对模型进行编程，并使用自动微分来<em

浏览 21提问于2019-04-02得票数 0

回答已采纳

1回答

神经网络回归最小批次尺寸的选择

、

我正在做一个具有4个特征的神经网络回归。如何确定我的问题的小批的大小？我看到人们在计算机视觉中使用100 ~ 1000批大小，每幅图像有32*32*3特征，这是否意味着我应该使用100万批处理？我有数十亿的数据和数十GB的内存，所以没有硬性要求我不这样做。我还观察到，使用一个小于1000的小批处理，其收敛速度比100万批大得多。我认为应该是相反的，因为用较大的批

浏览 3提问于2016-11-10得票数 1

回答已采纳

1回答

colocate_gradients_with_ops论点在TensorFlow？

、

我试图理解这个论点的作用，AdamOptimizer的的compute_gradients方法这样说- colocate_gradients_with_ops：如果是的话，试着用相应的op来计算渐变。在这种情况下，共分梯度意味着什么?所述op是什么？

浏览 3提问于2018-02-12得票数 3

回答已采纳

1回答

Keras：“样本权重”是否参与了这些衍生产品

、、、

根据Keras文档的说法，sample_weight可以用于训练数据中的任何样本在损失中的不同重要性。我在谷歌上搜索了一下，但没有找到我的问题的答案如下：因为损失函数实际上并不是基于样本权重来

浏览 0提问于2020-03-21得票数 6

2回答

随机梯度下降中的随机部分是什么？

、、

根据我的理解，一个随机过程，其值在某一时刻取决于先前采取的值，而且每次运行该过程时，所选择的路径可能是不同的。在一定的初始播种值之后，我们只能知道这个过程的限制和限制。利用随机梯度下降法对神经网络的权值进行更新。它的随机部分是什么？在对变量进行某些初始化之后，如果在每次测试初始化后提供相同的输入数据集，则累积的错误函数将是相同的

浏览 0提问于2017-09-28得票数 3

1回答

的批次大小。或者:如何诊断神经网络的偏差/方差？

、、

我目前正在使用ScikitLearn中的两个类处理一个分类问题，其中有求解器adam和激活relu。为了探索我的分类器是否存在高偏差或高方差，我用Scikitlearns内置函数绘制了学习曲线：应该是这样的吗？我认为学习曲线是根据独立于任何批次/时代的训练数据来处理准确性分数的吗？对于批处理方法，

浏览 1提问于2019-03-26得票数 1

回答已采纳

3回答

美国有线电视新闻网何时更新权重？

、、、、

在CNNs中，我们什么时候使用反向传播更新内核参数？假设我的批号为50，训练数据为1000。我是在每个批次提交到网络后还是在每个数据样本之后进行反向传播？

浏览 0提问于2018-02-03得票数 7

回答已采纳

1回答

计算坡度的平均值

我目前正在研究反向传播过程和梯度体面算法，形成了由Michael和3 Blue1Brown通道在YouTube中编写的“神经网络和深度学习”一书。我的问题是计算梯度体面算法中的梯度(整个数据集作为输入)。📷 例如，我们有100万张手写数字图像，通过第一次迭代，我们向网络提供了这100万张图像。然后计算出每幅图像的梯度，并在更新权重之

浏览 0提问于2019-11-06得票数 2

回答已采纳

1回答

tf.train.RMSPropOptimizer(lr_rate).compute_gradients?和tf.gradients有什么区别？

、、、、

两者有什么区别？和如果有什么不同，比如说我想使用tf.train.RMSPropOptimizer(self.lr_rate).apply_gradients()，哪一种更好呢？

浏览 7提问于2016-12-23得票数 4

1回答

神经网络:时代与批次大小

、、

我正在尝试训练一个神经网络来将单词分类为不同的类别。我注意到两件事：更重要的是，当我使用更大的EPOCH值时，我的模型在减少损失方面做得很好。但是，我使用的是一个非常大的值(EPOCHS = 10000)。问题：如何获得最优的EPOCH和

浏览 3提问于2020-10-23得票数 3

回答已采纳

1回答

我刚刚开始学习tensorflow，并且正在实现一个线性回归的神经网络。我遵循了一些在线教程，能够写出代码。我没有使用激活函数，而是使用MSE(tf.reduce_sum(tf.square(output_layer - y)))。当我运行代码时，我得到了Nan作为预测的准确性。我使用的代码如下所示X = tf.placeholder("float", shape=[None, x_size]) y = tf.placeholder("floataccuracy

浏览 0提问于2017-03-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

随机梯度下降分批

如何处理火炬中的小批量损失？

GD、批GD、SGD和小型批处理SGD有什么不同？

批处理梯度下降的Sklearn实现

为什么渐变检查在批归一化不起作用？

如何计算损失函数？

带Dropout层的Keras小型批处理梯度下降

LSTM批量大小和序列长度对内存的影响

文本二值分类训练中的波动损失

如何在TensorFlow中计算子梯度？

神经网络回归最小批次尺寸的选择

colocate_gradients_with_ops论点在TensorFlow？

Keras：“样本权重”是否参与了这些衍生产品

随机梯度下降中的随机部分是什么？

的批次大小。或者:如何诊断神经网络的偏差/方差？

美国有线电视新闻网何时更新权重？

计算坡度的平均值

tf.train.RMSPropOptimizer(lr_rate).compute_gradients?和tf.gradients有什么区别？

神经网络:时代与批次大小

使用tensorflow进行线性回归的神经网络

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐