专栏首页人工智能与演化计算成长与进阶[吴恩达机器学习笔记]12支持向量机3SVM大间距分类的数学解释

[吴恩达机器学习笔记]12支持向量机3SVM大间距分类的数学解释

“参考资料 斯坦福大学 2014 机器学习教程中文笔记 by 黄海广

12.3 大间距分类背后的数学原理- Mathematics Behind Large Margin classification

向量内积

  1. 假设有两个向量
u=\begin{bmatrix}u_1\\u_2\\ \end{bmatrix}

,向量

v=\begin{bmatrix}v_1\\v_2\\ \end{bmatrix}

,其中向量的内积表示为

u^Tv

.假设

u_1

表示为 u 在坐标轴横轴上的投影,而

u_2

表示为 u 在坐标轴纵轴上的投影,则向量 u 的欧几里得长度可表示为

\parallel u \parallel

, 且有

\parallel u \parallel=\sqrt{u_1^{2}+u_2^{2}}
  1. 对于向量的内积
u^{T}v

,可以视为 v 向量在 u 向量上的投影 p 乘以 u 向量的长度,这两者都为实数,且当 v 向量的投影与 u 向量同方向时,p 取正号,否则 p 取负号 即有式子

u^{T}v=P * \parallel u \parallel=u_1v_1+u_2v_2

向量内积研究 SVM 目标函数

  • 为了更容易分析问题只保留了损失函数的后半部分而去掉了 C 及其乘积项。 ,原始损失函数如下图:
  • 为简化起见,忽略掉截距,设置损失函数中参数
\theta_0

为 0,设置特征数 n=2. ,则简化后的式子可写为:

  • 因此可以认为 SVM 的目的就是最小化向量
\theta

范数的平方或者说是长度的平方

\theta^{T}x

的意义

  • 给定参数向量 θ 给定一个样本 x, 计算其二者的乘积,这其中的含义是什么?对于
\theta^{T}x

其相当于向量内积

u^{T}v
  1. 首先,对于训练样本
x^{(i)}

,其在 x 轴上的取值为

x^{(i)}_{1}

,其在 y 轴上的取值为

x^{(i)}_{2}

,此时 将其视为始于原点,终点位于训练样本的向量

  1. 然后将参数
\theta

也视为向量且其在横轴上的投影为

\theta_1

,其在纵轴上的投影为

\theta_2
  1. 使用之前的方法,将训练样本投影到参数向量 θ,使用
p_{(i)}

来表示第 i 个训练样本在参数向量

\theta

上的投影。 即有

\theta^{T}x^{(i)}=p_{(i)}\parallel \theta\ \parallel=\theta_1x_1^{(i)}+\theta_2x_2^{(i)}
x_{(i)}

代表从原点出发连接到第 i 个样本点的向量,是可正可负的,分别表示正样本和负样本;

p^{(i)}

表示样本向量

x_{(i)}

到参数向量

\theta

上的投影,其也是可正可负的,同方向为正负方向为负对于 SVM 中

\theta^{T}x^{(i)}\ge1或者\theta^{T}x^{(i)}\le-1

的约束也可以被

p^{(i)}x\ge1

这个约束所代替

\theta^{T}x

到大间距

  • 首先为方便起见设置
\theta_0=0

,且只选取两个特征,即

\theta_1 和 \theta_2

,则参数

\theta

可以表示成一条过原点的直线,且 决策界

\theta

直线垂直。

  • 反证法 如下图所示(1),y 轴右边的表示正样本,而 y 轴左边的表示负样本,蓝线表示参数
\theta

,绿线表示决策界 ,很明显这条决策界很不好,因为其与正负样本的间距太小了。通过将样本投影到

\theta

上可以得到 p,此时正负样本的||p||都很小,根据 SVM 的公式||p|| * ||

\theta

||>=1,则其必须使||

\theta

||很大才能满足条件,这和目标函数希望找到一个小的参数

\theta

的目的是矛盾的,这表明这并不是一条好的决策界

  • 而图(2)中 x 在
\theta

的投影 p 就相对的大一些,这样在满足公式

||p|| * ||\theta||>=1

需要的||

\theta

||就会小一些,这和 SVM 的优化目标是一致的。所以 好的 SVM 的优化结果中,决策界的间距一定比较大

参考资料

[1]

吴恩达老师课程原地址: https://study.163.com/course/courseMain.htm?courseId=1004570029

本文分享自微信公众号 - DrawSky(wustcsken),作者:CloudXu

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • [吴恩达机器学习笔记]12支持向量机2 SVM的正则化参数和决策间距

    比 0 小很多,比如我希望它小于等于-1,这就相当于在支持向量机中嵌入了一个额外的安全因子。或者说安全的间距因子。

    DrawSky
  • [吴恩达机器学习笔记]12支持向量机6SVM总结

    用以解决 SVM 最优化问题的软件很复杂,且已经有研究者做了很多年数值优化。因此强烈建议使用高优化软件库中的一个,而不是尝试自己落实一些框架。有许多好的软件库,...

    DrawSky
  • 欧拉图和哈密顿图

    DrawSky
  • 微积分、线性代数、概率论,这里有份超详细的ML数学路线图

    机器学习算法背后的数学知识你了解吗?在构建模型的过程中,如果想超越其基准性能,那么熟悉基本细节可能会大有帮助,尤其是在想要打破 SOTA 性能时,尤其如此。

    代码医生工作室
  • 【前沿】Geoffery Hinton 的 NIPS2017 Capsule论文简读

    10月26日,深度学习元老Hinton的NIPS2017 Capsule论文《Dynamic Routing Between Capsules》终于在arxiv...

    WZEARW
  • 按部就班的吴恩达机器学习网课用于讨论(10)

    比如在一个肿瘤预测的问题上,当大量的样本为负样本(实际上没有肿瘤99.5%),只有少数的样本为正样本(实际存在肿瘤0.5%)。那么评判一个机器学习模型的指标,就...

    嘘、小点声
  • 麻省理工科学家研制可转换状态材料 或将制造变形机器人

    20年前《终结者2》中出现的液体变形机器人T-1000让人们记忆犹新,目前,这种可怕的技术即将成为实现,美国麻省理工学院科学家最新研制一种先进变形材料,可使机器...

    机器人网
  • lable在单元格上得自适应

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010105969/article/details/...

    用户1451823
  • 同一科室一批数据一套分析发2遍?

    作者在2020年七月发表在Medicine(IF=1.552)上的“Identification of key genes in calcific aortic...

    科研菌
  • 通过css和jQuery实现手风琴菜单效果

    在做管理系统时经常会用到点击展开,再次点击关闭的菜单效果,通常有很多的插件来实现,但是效果实现了,由于引入了大量的外部文件,导致项目本来内容就多,变得更多了,不...

    无邪Z

扫码关注云+社区

领取腾讯云代金券