首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >GD、批GD、SGD和小型批处理SGD有什么不同?

GD、批GD、SGD和小型批处理SGD有什么不同?
EN

Data Science用户
提问于 2019-06-15 21:17:42
回答 2查看 6.9K关注 0票数 3

这四种梯度下降函数之间有何不同?

  • GD
  • 批GD
  • SGD
  • 小批量SGD
EN

回答 2

Data Science用户

回答已采纳

发布于 2019-06-16 04:30:06

梯度下降是利用目标函数的梯度(神经网络中的损失函数)来优化模型参数的一种优化方法。它对参数进行优化,直到损失函数的值最小为止(我们已经达到损失函数的最小值)。它常被称为神经网络的反向传播。

以下所有方法都是渐变下降的变体。您可以从这个视频中学到更多。

批处理梯度下降:

使用来自整个数据集的样本来优化参数,即计算单个更新的梯度。对于包含100个样本的数据集,更新只发生一次。

随机梯度下降:

随机GD计算数据集中每个样本的梯度,从而对数据集中的每个样本进行更新。对于包含100个样本的数据集,更新次数为100次。

最小批次梯度下降:

这是为了捕捉批处理和随机GD的好方面。与单个样本(随机GD )或整个数据集(批GD )不同,我们采用数据集的小批或小块,并相应地更新参数。对于包含100个样本的数据集,如果批处理大小为5,则意味着我们有20批。因此,更新会发生20次。

上述方法均采用梯度下降法进行优化。主要的区别在于计算出了多少样本。梯度平均为小批处理和批处理GD。

您可以参考这些博客/帖子:

批处理梯度下降与随机梯度下降

梯度下降算法及其变体

票数 5
EN

Data Science用户

发布于 2019-06-15 22:23:21

梯度下降(GD)指的是利用损失函数的梯度在最陡下降的“方向”更新模型参数值的一般优化方法。因此,GD可以指批GD、SGD或小型批处理SGD.

SGD指的是GD,它在每个标签对(\boldsymbol{x}, y)之后更新模型的参数,其中\boldsymbol{x}是一个观察,y是相应的标签或类(在分类任务的情况下)。

批处理GD和小型批处理SGD (通常)是同步的,它们引用GD方法的一个版本,其中参数使用一个或多个标记对(由“批处理”或“迷你批处理”表示)更新。有关更多详细信息,请参阅

但是,请注意,一般来说,有些人可能不会根据上述定义使用这些术语。例如,有些人可能会使用SGD来指小型批处理SGD.

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/53870

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档