文章/答案/技术大牛

发布

社区首页 >问答首页 >GD、批GD、SGD和小型批处理SGD有什么不同？

问GD、批GD、SGD和小型批处理SGD有什么不同？
EN

Data Science用户

提问于 2019-06-15 21:17:42

回答 2查看 6.9K关注 0票数 3

这四种梯度下降函数之间有何不同？

GD
批GD
SGD
小批量SGD

machine-learning

neural-network

gradient-descent

回答 2

Data Science用户

回答已采纳

发布于 2019-06-16 04:30:06

梯度下降是利用目标函数的梯度(神经网络中的损失函数)来优化模型参数的一种优化方法。它对参数进行优化，直到损失函数的值最小为止(我们已经达到损失函数的最小值)。它常被称为神经网络的反向传播。

以下所有方法都是渐变下降的变体。您可以从这个视频中学到更多。

批处理梯度下降：

使用来自整个数据集的样本来优化参数，即计算单个更新的梯度。对于包含100个样本的数据集，更新只发生一次。

随机梯度下降：

随机GD计算数据集中每个样本的梯度，从而对数据集中的每个样本进行更新。对于包含100个样本的数据集，更新次数为100次。

最小批次梯度下降：

这是为了捕捉批处理和随机GD的好方面。与单个样本(随机GD )或整个数据集(批GD )不同，我们采用数据集的小批或小块，并相应地更新参数。对于包含100个样本的数据集，如果批处理大小为5，则意味着我们有20批。因此，更新会发生20次。

上述方法均采用梯度下降法进行优化。主要的区别在于计算出了多少样本。梯度平均为小批处理和批处理GD。

您可以参考这些博客/帖子：

批处理梯度下降与随机梯度下降

梯度下降算法及其变体

票数 5

Data Science用户

发布于 2019-06-15 22:23:21

梯度下降(GD)指的是利用损失函数的梯度在最陡下降的“方向”更新模型参数值的一般优化方法。因此，GD可以指批GD、SGD或小型批处理SGD.

SGD指的是GD，它在每个标签对(\boldsymbol{x}, y)之后更新模型的参数，其中\boldsymbol{x}是一个观察，y是相应的标签或类(在分类任务的情况下)。

批处理GD和小型批处理SGD (通常)是同步的，它们引用GD方法的一个版本，其中参数使用一个或多个标记对(由“批处理”或“迷你批处理”表示)更新。有关更多详细信息，请参阅这。

但是，请注意，一般来说，有些人可能不会根据上述定义使用这些术语。例如，有些人可能会使用SGD来指小型批处理SGD.

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/53870

复制

相似问题

问GD、批GD、SGD和小型批处理SGD有什么不同？
EN

回答 2

Data Science用户

批处理梯度下降：

随机梯度下降：

最小批次梯度下降：

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问GD、批GD、SGD和小型批处理SGD有什么不同？EN

回答 2

Data Science用户

批处理梯度下降：

随机梯度下降：

最小批次梯度下降：

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问GD、批GD、SGD和小型批处理SGD有什么不同？
EN