Softmax classifier[通俗易懂]

全栈程序员站长

发布于 2022-11-01 11:14:46

1.1K0

发布于 2022-11-01 11:14:46

Softmax classifier原文链接

SVM是两个常见的分类器之一。另一个比较常见的是Softmax分类器，它具有不同的损失函数。如果你听说过二分类的Logistic回归分类器，那么Softmax分类器就是将其推广到多个类。不同于SVM将 f(xi,W) 的输出结果 (为校准，可能难以解释)作为每个分类的评判标准，Softmax分类器给出了一个稍直观的输出（归一化的类概率），并且也有一个概率解释，我们将在后面介绍。在Softmax分类器中，映射函数f（xi; W）= Wxi保持不变，但是我们现在将这些得分解释为每个类的非归一化对数概率，并用具有以下形式的交叉熵损失代替hinge loss：

L i=−log(efyi∑jefj) 等价于 Li=−fyi+log∑jefj

我们使用符号fj来表示向量f的第j个元素的分类得分。如前所述，数据集的全部损失是所有训练样例中的Li的平均值加正则化项R（W）。

函数 fj(z)=ezj∑kezk 就是损失函数：它需要一个任意实值分数（在z中）的向量，并将其压缩到0和1之间的值，向量和为1。

如果你是第一次看到它，softmax函数的完整的交叉熵损失可能看起来很恐怖，但相对容易激发。

信息理论观。 “真实”分布p与估计分布q之间的交叉熵定义为：

H(p,q)=−∑xp(x)logq(x)

因此，Softmax分类器将预估的分类概率（q = efyi /Σjefj如上所述）和“真实”分布之间的交叉熵最小化，

也就是说，所有概率项在正确类上的分布（即，p = [0，… 1，…，0]在第y位置包含单个1。此外，由于交叉熵可以用

熵和Kullback-Leibler发散来表示为：H(p,q)=H(p)+DKL(p||q) 并且Δ函数p的熵为零，这也相当于使两个分布之间的KL发散最小化（距离的度量）。

换句话说，交叉熵目标希望预测的所有块，在正确答案中均可以找到。

概率解释。看着这个表达式，我们看到了：(yi∣xi;W)=efyi∑jefj

可以解释为给定图像xi并由参数化的W的正确标签yi的（归一化）概率。

要看到这一点，请记住，Softmax分类器将输出向量f内的分数解释为非归一化取对数后的概率。

指定这些数量，给出（非归一化）概率，并且分割执行归一化，使得概率总和为1。

在概率解释中，我们因此将负对数最小化作为正确分类的似然函数，这可以解释为执行最大似然估计（MLE）。

这个观点的一个很好的特点是，现在我们现在也可以将全损失函数中的正则化项R（W）解释为来自加权矩阵W之前的高斯，其中代替MLE，我们执行最大后验（MAP））估计。我们提到这些解释来帮助你的直观的了解，但这个推导的全部细节超出了本部分的范围。实际问题：数值稳定。在实践中，由于指数，中间项efyi和Σjefj可能非常大。分割大数可能在数值上不稳定，所以使用规范化技巧很重要。请注意，如果我们将分数的顶部和底部乘以常数C并将其变换为指数累加，我们得到以下（数学上等效的）表达式：

efyi∑jefj=CefyiC∑jefj=efyi+logC∑jefj+logC

我们可以自由选择C.这不会改变任何结果，但是我们可以使用这个值来提高计算的数值稳定性。 C的常见选择是设置 logC=−maxjfj .这里需要指出，我们应该将向量f内的值移位，使得最高值为零。代码如下：

f = np.array([123, 456, 789]) # example with 3 classes and each having large scores
p = np.exp(f) / np.sum(np.exp(f)) # Bad: Numeric problem, potential blowup

# instead: first shift the values of f so that the highest number is 0:
f -= np.max(f) # f becomes [-666, -333, 0]
p = np.exp(f) / np.sum(np.exp(f)) # safe to do, gives the correct answer

Jetbrains全家桶1年46，售后保障稳定

可能混淆命名约定。确切地说，SVM分类器使用hinge损失，有时也称为最大损耗。 Softmax分类器从softmax函数获取其名称，该函数用于将原始分数压缩为归一化的正值，总和为1，从而可以应用交叉熵损失。特别要注意的是，从技术上来说，谈论“softmax损失”是没有意义的，因为softmax只是挤压功能，但它是一个比较常用的速记。

交叉熵代价函数（cross-entropy cost function）

下面的公式对应一个神经元，多输入单输出：

sorry，翻译完，自己也看不懂了！能力有限。就说说自己的理解吧！ softmax是一个分类器，计算的是某个类别的概率。是logistic regression的一种推广，logistic regression只能用于二分类，而softmax可以用于多分类。

在用caffe做深度学习的时候，用户的最终目的可能就是得到各个类别的概率的 似然值，这时候就需要一个softmax层，而不一定要进行softmax-loss操作，或者用户通过其他方式已经得到了某个概率的似然值，然后要做 最大似然估计，此时只需要做softmax-loss,而不需要前面的softmax操作。

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/198353.html原文链接：https://javaforall.cn

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2022年10月21日，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习