在卷积神经网络中,假设仿射层的输入和输出分别为$x$和$y$。这个仿射运算$y = W^{\top} + b$已经在$b \neq 0$的情况下增加了非线性。
为什么我们还需要像ReLU这样的函数来增加系统的非线性呢?
发布于 2018-07-24 08:21:22
这种仿射运算$y = W^{\top} + b$已经在$b \neq 0$的情况下增加了系统的非线性。
在数据科学的背景下,这不被认为是非线性的。不同的学科有时以不同的方式定义线性。关键的是,$+b$在数据拟合方面的表现是相同的,因为它将$x$扩展为一个新的维度,总是$1$,并将$b$的值移动到权重$W$中。这种简单的乘法显然是线性的。
同样重要的是,仿射变换形成了一个组,使得任何两个仿射变换组合起来都只是具有不同参数的另一个仿射变换。如果隐层没有非线性,两层神经网络就会和单层神经网络一样,无法学习关于非线性关系的整个课程。
例如,无论对输入应用多少仿射转换,您都无法逼近异或函数或$y=\text{sin}(x)$的任何重要部分。
https://datascience.stackexchange.com/questions/35951
复制相似问题