Hinge loss

原文链接:Hinge loss

Hinge loss

在机器学习中,hinge loss常作为分类器训练时的损失函数。hinge loss用于“最大间隔”分类,特别是针对于支持向量机(SVM)。对于一个期望输出

和分类分数y,预测值y的hinge loss被定义为:

(为了方便将其写作L(y)) 注意:这里的y分类器决策函数的“原始”输出,而不是预测的类别标签。例如,在线性SVM中,y=wx+b,(w,b)是分类超平面的参数,x是要分类的点。 可以看到,当t和y有相同的符号的时候(这意味着y的预测是正确的)并且

,hinge loss的结果为L(y)=0,但是当出现错误的分类是,hinge loss的L(y)与y呈线性关系(一个线性误差)。

扩展

当然有时二分类的SVM通常会以一对一或者一对多的形式扩展到多分类的任务,为了实现这个目的,也可以扩展hinge loss函数。现在已经有多种hinge loss的不同的变化形式。比如,Crammer and Singer提出的一种针对线性分类器的损失函数:

Weston and Watkins提出了一种相似定义,但是用相加取代了求最大值:

在结构化预测中,hinge loss可以进一步扩展到结构化输出空间。具有边缘重新缩放的结构化SVM使用以下变量,其中w表示SVM参数,y表示SVM的预测结果,φ是联合特征函数,Δ表示Hamming loss:

优化

hinge loss是一个凸函数,所以,很多在机器学习中涉及到的凸优化方法同样适用于hinge loss。它是不可微的(不连续啊),但是对于线性SVM(

),具有关于模型参数w的子梯度,被定义为:

然而,因为hinge loss在t*y=1的时候导数是不确定的,所以一个平滑版的hinge loss函数可能更加适用于优化,它由Rennie and Srebro提出:

除此之外,还有二次方(平方)平滑:

modified Huber loss是在

时的特殊情况。

上图为hinge loss函数关于z=ty的三种版本,蓝色的线是原始版,绿色线为二次方平滑,红色的线为分段平滑,也就是被Rennie and Srebro 提出的那一版。

上图中为hinge loss(蓝)和0/1损失(绿)。注意,hinge loss函数惩罚了ty<1(也就是说在ty<1的时候有loss不为0),这个特点和SVM中的分类间隔的概念是相对应的。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习入门与实践

机器学习基础与实践(三)----数据降维之PCA

写在前面:本来这篇应该是上周四更新,但是上周四写了一篇深度学习的反向传播法的过程,就推迟更新了。本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出...

1977
来自专栏企鹅号快讯

机器学习——神经网络代价函数、反向传播、梯度检验、随机初始化

机器学习(十二) ——神经网络代价函数、反向传播、梯度检验、随机初始化 (原创内容,转载请注明来源,谢谢) 一、代价函数 同其他算法一样,为了获得最优化的神经网...

2567
来自专栏IT派

福利 | 纵览机器学习基本词汇与概念

机器之心曾开放过人工智能术语集 ,该术语库项目目前收集了人工智能领域 700 多个专业术语,但仍需要与各位读者共同完善与修正。本文编译自谷歌开发者机器学习术语表...

3819
来自专栏机器学习算法原理与实践

典型关联分析(CCA)原理总结

    典型关联分析(Canonical Correlation Analysis,以下简称CCA)是最常用的挖掘数据关联关系的算法之一。比如我们拿到两组数据,...

562
来自专栏数据派THU

开发者必看:超全机器学习术语词汇表!

来源:机器之心 本文长度为12243字,建议阅读8分钟 本文编译自谷歌开发者机器学习术语表项目,介绍了该项目所有的术语与基本解释。 A 准确率(accuracy...

3056
来自专栏ACM算法日常

第三篇:机器学习之代价函数和梯度下降

从隐层开始每个神经元是上一层逻辑回归的结果并且作为下一层的输入,篇幅限制,我们将在下一篇将详细介绍逻辑回归的公式与代码

632
来自专栏机器之心

谷歌开发者机器学习词汇表:纵览机器学习基本词汇与概念

选自Google Developers 机器之心编译 机器之心曾开放过人工智能术语集 ,该术语库项目目前收集了人工智能领域 700 多个专业术语,但仍需要与各位...

34711
来自专栏磐创AI技术团队的专栏

TensorFlow系列专题(二):机器学习基础

数据预处理的方式较多,针对不同类型的数据,预处理的方式和内容也不尽相同,这里我们简单介绍几种较为常用的方式:

614
来自专栏重庆的技术分享区

2吴恩达Meachine-Learing之单变量线性回归(Linear-Regression-with-One-Variable

1284
来自专栏数据科学与人工智能

【知识】线性回归和梯度下降算法,值得学习

小编邀请您,先思考: 线性回归的假设是什么?线性回归用来解决什么问题? 梯度下降算法怎么理解?梯度下降算法怎么改进? ? 实例 首先举个例子,假设我们有一个二手...

1956

扫码关注云+社区