众所周知,SGD迭代具有很大的方差。考虑到迭代更新:
其中w为模型权值,g_i(w^k)为样本i损失函数的梯度。如何计算每个更新p^k的方差?我想为每次迭代绘制它,并研究它在最小化过程中的行为。
发布于 2020-04-02 20:25:54
您可以绘制更新与迭代的关系图,并分析每次更新的变化随迭代次数的增加而变化。就像在这里中,他们正在比较标准梯度下降算法与其随机版本的方差。

https://datascience.stackexchange.com/questions/71606
复制相似问题