文章/答案/技术大牛

发布

社区首页 >问答首页 >感知学习率

问感知学习率
EN

Data Science用户

提问于 2018-09-06 00:17:39

回答 2查看 1.3K关注 0票数 1

我不明白以下的说法：

学习速率m的选择并不重要(对于感知器而言)，因为它只是改变了w(权值)的比例。维基百科引用的这个声明的网站。

感知器的更新规则是错误情况下的$w \pm x$。如果对权向量的更新是加或减，它怎么能只缩放权重？

neural-network

perceptron

回答 2

Data Science用户

发布于 2018-09-11 20:05:11

经过一番研究，我想出了答案，如果有人也觉得有用的话，我想和大家分享。Perceptron的损耗函数是铰链损耗或

$J(w) = max(0，-yw^Tx)$。

向损失函数添加常量不会改变函数的值，因为它不会改变决策的符号。换句话说

$J_2(w) = max(0，-\alpha yw^Tx) = J(w)$。

如果我们使用$J_2$进行梯度下降，我们有

$\partial(J_2)/\partial(w) = 0$，如果$J_2 = 0$；

否则，$\partial(J_2)/\partial(w) = -\alpha yx$。

因此，梯度下降的更新函数是

$w_{new} = w_{old} \pm \alpha x$。

只要$\alpha > 0$，它在任何步骤中都不会改变Perceptron的决策。这就是为什么对于Perceptron来说，你只需要将学习速度设定为1。

具体地回答这个问题，当人们说“学习速率只缩放$w$”时，他们指的是$J_2(w) = max(0，-\alpha yw^Tx)$，而不是$w_{new} = w_{old} \pm \alpha x$。

我发现一个非常有用的相关问题是脉冲加速器收敛上界中最终权向量的归一化

票数 3

Data Science用户

发布于 2018-09-06 00:39:25

学习速率调节梯度下降算法每一步$t$的权值变化量。

这不是真的，它可以设置到任意数量，这是离真相最远的。太小的学习速率永远不会允许机器学习模型收敛到最小值，而太大的学习速率将导致模型参数在可能的最小值附近振荡。

在这里，我更详细地回答了基本梯度下降算法是如何受到学习速率选择的影响的，然后我提出了一些更好的替代方法：适应性学习优化器是否遵循最陡峭的标准？。

详细信息

更准确地说，梯度下降的更新规则是

$w^{t+1} = w^t + m\nabla (W)$

其中，$m$是学习速度和

$J(w) = \frac{1}{2}\sum(y-\hat{y})^2$

是成本函数。因此，它不会在乘法意义上缩放权重，但是它确实缩放了权值在算法的每一步将经历的校正。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/37856

复制

相似问题

问感知学习率
EN

回答 2

Data Science用户

Data Science用户

详细信息

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问感知学习率EN

回答 2

Data Science用户

Data Science用户

详细信息

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问感知学习率
EN