我不明白以下的说法:
学习速率m的选择并不重要(对于感知器而言),因为它只是改变了w(权值)的比例。维基百科引用的这个声明的网站。
感知器的更新规则是错误情况下的$w \pm x$。如果对权向量的更新是加或减,它怎么能只缩放权重?
发布于 2018-09-11 20:05:11
经过一番研究,我想出了答案,如果有人也觉得有用的话,我想和大家分享。Perceptron的损耗函数是铰链损耗或
$J(w) = max(0,-yw^Tx)$。
向损失函数添加常量不会改变函数的值,因为它不会改变决策的符号。换句话说
$J_2(w) = max(0,-\alpha yw^Tx) = J(w)$。
如果我们使用$J_2$进行梯度下降,我们有
$\partial(J_2)/\partial(w) = 0$,如果$J_2 = 0$;
否则,$\partial(J_2)/\partial(w) = -\alpha yx$。
因此,梯度下降的更新函数是
$w_{new} = w_{old} \pm \alpha x$。
只要$\alpha > 0$,它在任何步骤中都不会改变Perceptron的决策。这就是为什么对于Perceptron来说,你只需要将学习速度设定为1。
具体地回答这个问题,当人们说“学习速率只缩放$w$”时,他们指的是$J_2(w) = max(0,-\alpha yw^Tx)$,而不是$w_{new} = w_{old} \pm \alpha x$。
我发现一个非常有用的相关问题是脉冲加速器收敛上界中最终权向量的归一化
发布于 2018-09-06 00:39:25
学习速率调节梯度下降算法每一步$t$的权值变化量。
这不是真的,它可以设置到任意数量,这是离真相最远的。太小的学习速率永远不会允许机器学习模型收敛到最小值,而太大的学习速率将导致模型参数在可能的最小值附近振荡。
在这里,我更详细地回答了基本梯度下降算法是如何受到学习速率选择的影响的,然后我提出了一些更好的替代方法:适应性学习优化器是否遵循最陡峭的标准?。
更准确地说,梯度下降的更新规则是
$w^{t+1} = w^t + m\nabla (W)$
其中,$m$是学习速度和
$J(w) = \frac{1}{2}\sum(y-\hat{y})^2$
是成本函数。因此,它不会在乘法意义上缩放权重,但是它确实缩放了权值在算法的每一步将经历的校正。
https://datascience.stackexchange.com/questions/37856
复制相似问题