如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情况下你每一层输出都是上层输入的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(Perceptron)了。
正因为上面的原因,我们决定引入非线性函数作为激励函数,这样深层神经网络就有意义了(不再是输入的线性组合,可以逼近任意函数)。最早的想法是Sigmoid函数或者Tanh函数,输出有界,很容易充当下一层输入(以及一些人的生物解释)。
扩展:神经网络可以逼近任意函数吗?
神经网络可以强大到近似逼近任意函数吗?是的。有没有一种通俗易懂、图形化的方式证明呢?
近日,发现 Michael Nielsen 教授已通过可视化方式证明了神经网络逼近任意函数,在这里一起与大家分享下。首先,看一个复杂的一维非线性函数,近似它的一个简单神经网络结构可以是这样的:
图中的 h 含义如何理解? 看下面这两幅图,w1=0.8,即 h=0.8 时; h=1.6 时的图形的区别仅在与高度不同,后者更高,因此 h 的大小在这种结构下是标志幅度大小的参数。此时,再反过头来看上面的图,是不是有点感觉了呢?
此时,我们都只有一个输入维度 x,如果再增加一个维度呢,如下图所示,一个有意思的问题,如果 x 的权重增加到100,y 的权重为 0 ,得到图形会是怎样的呢?
可以理解为忽略 y 轴的作用,如下图所示只有一个变量输入的情形:
真的如此吗,看看下图,它沿 y 轴的映射不正是上图吗。
再看一个更有意思的函数,其中的 h 含义与上面相同。