loss function 损失函数,可以用来衡量算法的运行情况,你可以定 loss function 为
和 y 的差的平方,或者是差的平方的 1/2.结果表明你可以这样做,但是通常在 logistic 回归中,大家都不这样做,因为使用这个 loss function 在做优化问题时,优化函数会变成非凸的最后会得到很多个局部最优解.梯度下降法可能找不到全局最优解.直观的解释是我们通过 loss function 来衡量你的预测输出值
和 y 的实际值有多接近.
所以为了解决这个问题,在使用优化器进行优化的时候使其成为一个凸的函数,我们在这里使用交叉熵数
cost function
loss function(损失函数)只适用于单个训练样本,但是 cost function(成本函数)则是基于整体训练集.所以在训练 logistic regression 的模型时,我们要找到合适的参数 W 和 b 使 cost function 计算得到的值尽可能小.
2.4 梯度下降法
在此图中横轴表示参数 w 和 b,在实践中 w 可以是更高维度的数据,此处为了绘制图片,我们将其设置为一个实数,b 也是一个实数,成本函数 J(W,b)是在水平轴 w 和 b 上的曲面,曲面的高度表示 J(W,b)在某一点的值,我们想要做的就是找到这样的 W 和 b 使其对应的成本函数 J 值是最小值.我们这里使用的 cost function 是交叉熵函数是一个凸函数,这是 logistic 回归使用这个特定成本函数 J 的重要原因之一.