参考链接:https://blog.csdn.net/colourful_sky/article/details/79164720
Sigmoid又叫作 Logistic 激活函数,它将实数值压缩进 0 到 1 的区间内,还可以在预测概率的输出层中使用。该函数将大的负数转换成 0,将大的正数转换成 1。 Sigmod数学公式为:
image.png
Sigmod的导数公式为:
image.png
Tanh 激活函数又叫作双曲正切激活函数(hyperbolic tangent activation function)。与 Sigmoid 函数类似,Tanh 函数也使用真值,但 Tanh 函数将其压缩至-1 到 1 的区间内。与 Sigmoid 不同,Tanh 函数的输出以零为中心,因为区间在-1 到 1 之间。你可以将 Tanh 函数想象成两个 Sigmoid 函数放在一起。在实践中,Tanh 函数的使用优先性高于 Sigmoid 函数。负数输入被当作负值,零输入值的映射接近零,正数输入被当作正值。 Tanh的数学公式为:
image.png
Tanh的导数公式为:
image.png
Relu 中文名叫做修正线性单元,是现在使用最广泛的函数。 Relu的数学公式为:
image.png
Relu的导数公式为:
image.png
不可以,如果将参数全初始化为0,那同一隐层每个节点的值都相同,反向传播权值更新也相同,这样每层隐层的神经元都相同,学习失败。
2
因为权值是通过BP更新的,sigmoid的导数最大值是0.25,tanh的导数最大值是1。 也就是说这两个函数的梯度都是<=1的,根据链式法则,梯度会衰减,以至梯度消失。
交叉熵损失函数用于分类问题,公式为:
image.png
均方误差用于回归问题,常见表达形式为MSE,是mean squared error的简写。 公式为:
image.png