我想问一个相当简单的问题。我有很深的纯数学背景,所以我对成本函数的数学没有太大的理解困难,但我只想澄清在实际的神经网络中成本函数到底是什么(即在实际数据集上实现它)。
给定一个固定的训练样本,我们可以将成本函数看作权值和偏差的函数,从而优化该函数就是求出该函数的最小值。
在实践中,当你有数千个培训样本时,成本函数是什么?是否所有训练例子的成本函数之和?
发布于 2022-03-02 07:24:24
成本函数是任何ML/DL模型的指导性明灯。为了使成本函数最小化,对所有权重/偏差进行了更新。为了减少这种优化算法的使用,如梯度下降,亚当,最小批处理梯度下降等。
当您有上千个培训数据时,成本函数通常是所有培训数据的总和。但是,我们确实有像Mini批处理梯度下降这样的算法,它不对所有训练示例进行权重更新,而是对批量数据进行直到一定次数的迭代。
发布于 2022-03-02 15:17:43
有很多种选择,但有两种常见的方法:分类的交叉熵和回归的均方误差。
在这两种情况下,预测的\hat y_i都是模型中权重和偏差的函数。此外,当有多个类时,也有一个交叉熵的扩展。它是用多项式y_i进行极大似然估计的结果(而不是产生我给出的方程的二项式y_i )。
但是,您可以选择许多其他的损失函数,这些函数具有不同的实用程度。有分位数回归、广义线性模型等类似物,如交叉熵和MSE分别给出了logistic和线性回归的神经网络模拟。
https://datascience.stackexchange.com/questions/108669
复制相似问题