这四种梯度下降函数之间有何不同?
发布于 2019-06-16 04:30:06
梯度下降是利用目标函数的梯度(神经网络中的损失函数)来优化模型参数的一种优化方法。它对参数进行优化,直到损失函数的值最小为止(我们已经达到损失函数的最小值)。它常被称为神经网络的反向传播。
以下所有方法都是渐变下降的变体。您可以从这个视频中学到更多。
使用来自整个数据集的样本来优化参数,即计算单个更新的梯度。对于包含100个样本的数据集,更新只发生一次。
随机GD计算数据集中每个样本的梯度,从而对数据集中的每个样本进行更新。对于包含100个样本的数据集,更新次数为100次。
这是为了捕捉批处理和随机GD的好方面。与单个样本(随机GD )或整个数据集(批GD )不同,我们采用数据集的小批或小块,并相应地更新参数。对于包含100个样本的数据集,如果批处理大小为5,则意味着我们有20批。因此,更新会发生20次。
上述方法均采用梯度下降法进行优化。主要的区别在于计算出了多少样本。梯度平均为小批处理和批处理GD。
您可以参考这些博客/帖子:
发布于 2019-06-15 22:23:21
梯度下降(GD)指的是利用损失函数的梯度在最陡下降的“方向”更新模型参数值的一般优化方法。因此,GD可以指批GD、SGD或小型批处理SGD.
SGD指的是GD,它在每个标签对(\boldsymbol{x}, y)之后更新模型的参数,其中\boldsymbol{x}是一个观察,y是相应的标签或类(在分类任务的情况下)。
批处理GD和小型批处理SGD (通常)是同步的,它们引用GD方法的一个版本,其中参数使用一个或多个标记对(由“批处理”或“迷你批处理”表示)更新。有关更多详细信息,请参阅这。
但是,请注意,一般来说,有些人可能不会根据上述定义使用这些术语。例如,有些人可能会使用SGD来指小型批处理SGD.
https://datascience.stackexchange.com/questions/53870
复制相似问题