学习
实践
活动
工具
TVP
写文章

机器学习技法-lecture5:Kernel Logistic Regression

Kernel Logistic Regression

lecture4中我们主要将SVM的范围推广至更一般的soft-margin SVM,主要的思路就是在原有的严格的SVM上我们容许一定的margin violation的发生,本节课我们讨论的内容是kernel logistic regression。

——课程回顾

01

Soft-Margin SVM as Regularized Model

首先,我们回顾下已经学习的两个SVM,容易得到两者的计算公式如上图,可以知道两个SVM的对偶方法的本质差别只是α的限制差距。实践应用中,hard-margin SVM的应用场景是很小的,soft-margin则被广泛应用。

接下来,我们重点分析一下松弛变量,我们知道它记录的是犯错误的点对边界的违反量,对于给定的w和b,一个点对于边界的违反情况有两种,一种情况是有违反,违反量大于0为1−yn(wTzn+b),另一种情况为没有违反,此时我们用0来记录,于是我们可以将soft—margin SVM的公式简化为上式,这样的操作实际上帮助我们将ξ这个变量转化为关于w和b的一个式子。

通过比较上面的公式和L2正则公式,可以发现两者的本质是一样的,为什么一开始不使用正则方法来解答这个问题的原因是max函数内部的点存在不可导的情形,因此才采用了前面的推导方法。

然后我们总结下SVM和正则化的联系:1、首先,我们知道正则化过程是在优化Ein的时候加上一个对w长度的限制条件,hard-margin可以理解成形式相同的过程,只是限制条件加在Ein上;2、soft-margin SVM与L2正则方法对应,只是对应的error比较特殊而已;3、我们求解large margin的过程实现了更少的hyperplane,实际上相当于实现了一个L2正则过程;4、参数方面,越大的C对应着越弱的正则化。

02

SVM versus Logistic Regression

我们令s为“线性分数”,作出ys和error的图像,我们在同一个图像中作出0/1损失,soft SVM和logistic regression三者的图像,容易发现soft SVM的error是0/1error的上界,且其与logistic regression的损失十分接近,这从某种程度上揭示了SVM和L2-regularized LR的联系。

然后我们可以总结三种解决binary classication的方法及相应的优缺点,我们可以知道正则化的logistic regression差不多等效于SVM,那么我们的思考是SVM得出的结果拿来做logistic regression呢?

03

SVM for Soft Binary Classification

我们接下来思考的一个问题是如何将SVM和LR联系起来,上面是两种很基本的思路,但是都有缺陷,主要是丢掉了某个方法的特性。

历史的前辈们在探索之后的思路是这样的,首先通过SVM得到SVM(xn),然后对其进行相应的放缩(A,B),然后对整体进行logistic regression的方法最终得到相应的结果,相应方法的实现步骤如下:

通过整个流程,我们得到了kernel SVM在Z空间的LR的approximate,接下来我们的目的是找到Z-space中的LR的最优解。

04

Kernel Logistic Regression

首先我们思考一下我们使用kernel能work的原因,我们知道kernel的功能是将计算z空间的內积的动作转化成计算x的函数,实际上,更进一步我们发现w能表示成某些点的线性组合才是我们完成整个过程的关键,即w能表示成某些点的线性组合才是kernel能work的原因,我们还发现SVM、PLA和LR都可以表示成某些点的线性组合。数学家通过研究发现:L2正则化方法的linear model对应的w可以表示成某些点的线性组合,下图给出了相关证明,更进一步我们可以得出结论:L2 正则化的linear model是可以kernelized,于是Logistic Regression可以使用这个结论。

我们将w的公式代入L2 正则化的logistic regression中,加入kernel方法通过整理我们得到一个关于β的无条件的最优化问题, 这个问题是很容易求解的。

然后我们来分析一下隐藏在KLR背后的信息,一方面我们可以将其视为w的线性模型,使用的是藏在kernel里面的转化和L2的正则方法,另一方面我们可以将其视为β的线性模型,使用kernel作为转化方法同时kernel也作为一个regularier。

本节课我们介绍了KLR,首先我们将soft-margin SVM和L2正则化方法联系起来,然后我们从损失函数角度联系两者,接着我们尝试实现了联合两者做出优化,最后借助representer theorem在L2正则上的结论达到求解KLR的目的。

——课程回顾

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180711G0K05S00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券