机器学习技法-lecture5：Kernel Logistic Regression

文章来源：企鹅号 - MungerML

Kernel Logistic Regression

lecture4中我们主要将SVM的范围推广至更一般的soft-margin SVM，主要的思路就是在原有的严格的SVM上我们容许一定的margin violation的发生，本节课我们讨论的内容是kernel logistic regression。

——课程回顾

Soft-Margin SVM as Regularized Model

首先，我们回顾下已经学习的两个SVM，容易得到两者的计算公式如上图，可以知道两个SVM的对偶方法的本质差别只是α的限制差距。实践应用中，hard-margin SVM的应用场景是很小的，soft-margin则被广泛应用。

接下来，我们重点分析一下松弛变量，我们知道它记录的是犯错误的点对边界的违反量，对于给定的w和b，一个点对于边界的违反情况有两种，一种情况是有违反，违反量大于0为1−yn(wTzn+b)，另一种情况为没有违反，此时我们用0来记录，于是我们可以将soft—margin SVM的公式简化为上式，这样的操作实际上帮助我们将ξ这个变量转化为关于w和b的一个式子。

通过比较上面的公式和L2正则公式，可以发现两者的本质是一样的，为什么一开始不使用正则方法来解答这个问题的原因是max函数内部的点存在不可导的情形，因此才采用了前面的推导方法。

然后我们总结下SVM和正则化的联系：1、首先，我们知道正则化过程是在优化Ein的时候加上一个对w长度的限制条件，hard-margin可以理解成形式相同的过程，只是限制条件加在Ein上；2、soft-margin SVM与L2正则方法对应，只是对应的error比较特殊而已；3、我们求解large margin的过程实现了更少的hyperplane，实际上相当于实现了一个L2正则过程；4、参数方面，越大的C对应着越弱的正则化。

SVM versus Logistic Regression

我们令s为“线性分数”，作出ys和error的图像，我们在同一个图像中作出0/1损失，soft SVM和logistic regression三者的图像，容易发现soft SVM的error是0/1error的上界，且其与logistic regression的损失十分接近，这从某种程度上揭示了SVM和L2-regularized LR的联系。

然后我们可以总结三种解决binary classication的方法及相应的优缺点，我们可以知道正则化的logistic regression差不多等效于SVM，那么我们的思考是SVM得出的结果拿来做logistic regression呢？

SVM for Soft Binary Classification

我们接下来思考的一个问题是如何将SVM和LR联系起来，上面是两种很基本的思路，但是都有缺陷，主要是丢掉了某个方法的特性。

历史的前辈们在探索之后的思路是这样的，首先通过SVM得到SVM(xn)，然后对其进行相应的放缩（A,B),然后对整体进行logistic regression的方法最终得到相应的结果，相应方法的实现步骤如下：

通过整个流程，我们得到了kernel SVM在Z空间的LR的approximate，接下来我们的目的是找到Z-space中的LR的最优解。

Kernel Logistic Regression

首先我们思考一下我们使用kernel能work的原因，我们知道kernel的功能是将计算z空间的內积的动作转化成计算x的函数，实际上，更进一步我们发现w能表示成某些点的线性组合才是我们完成整个过程的关键，即w能表示成某些点的线性组合才是kernel能work的原因，我们还发现SVM、PLA和LR都可以表示成某些点的线性组合。数学家通过研究发现：L2正则化方法的linear model对应的w可以表示成某些点的线性组合，下图给出了相关证明，更进一步我们可以得出结论：L2 正则化的linear model是可以kernelized，于是Logistic Regression可以使用这个结论。

我们将w的公式代入L2 正则化的logistic regression中，加入kernel方法通过整理我们得到一个关于β的无条件的最优化问题，这个问题是很容易求解的。

然后我们来分析一下隐藏在KLR背后的信息，一方面我们可以将其视为w的线性模型，使用的是藏在kernel里面的转化和L2的正则方法，另一方面我们可以将其视为β的线性模型，使用kernel作为转化方法同时kernel也作为一个regularier。

本节课我们介绍了KLR，首先我们将soft-margin SVM和L2正则化方法联系起来，然后我们从损失函数角度联系两者，接着我们尝试实现了联合两者做出优化，最后借助representer theorem在L2正则上的结论达到求解KLR的目的。

——课程回顾

发表于: 2018-07-112018-07-11 10:56:21
原文链接：https://kuaibao.qq.com/s/20180711G0K05S00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

机器学习技法-lecture5：Kernel Logistic Regression

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐