前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不添加任何数学成分的纯分类模型

不添加任何数学成分的纯分类模型

作者头像
木羊
发布2022-04-11 17:36:16
4170
发布2022-04-11 17:36:16
举报
文章被收录于专栏:睡前机器学习

今天聊KNN。

先问一个问题:学机器学习,是一定要很了解数学吗?

......吗?也许现在说起机器学习,普遍都有一种印象,那就是机器学习的模型就是数学模型,需要学许多很复杂的数学符号和很难懂的数学概念才能弄懂原理。这也是让许多同学最终对机器学习望而却步的原因。

应该说吧,这印象也不算十分错,机器学习确实是一门交叉学科,用到了概率统计、线性代数、微分、信息论等等,光看这一个个的名字,哪怕不知道是啥意思,都会觉得机器学习根本就是数学的亲儿子。

不过,这里要说的是,学机器学习模型不是学数学。

现代数学最大的特点,就是演绎法构造了一套庞大的公理体系。这就是为什么总感觉学习数学,就是在学习各种定义、公理、推论和证明,是纯粹的逻辑游戏。

但机器学习不同。

机器学习最大的不同,在于机器学习是一套实践之学。机器学习模型最终总是要解决实际问题,可解释性很强但效用很糟糕的模型是流行不起来的。啥意思呢,就是光理论很漂亮,预测效果扑街,照样要完蛋。

反过来,如果模型的原理并不数学也不复杂,但是预测效果很好,反而能很快流行起来。一批从生活中攫取灵感的机器学习模型因此涌现出来。

譬如KNN。

KNN模型简单得异乎寻常,原理都在名字里了。

KNN,全称K-NearestNeighbor,可以直译为K个最近邻。对,这就是KNN模型进行分类的全部原理。不含任何数学成分,可以放心学习。完。

等等,感觉好像还是不很理解?

那了解一下KNN的分类过程就肯定理解了。

我们知道,样本点是有几个维度的值所构成,自然都能在坐标空间中表示。KNN分类就是通过测量样本点在空间中的距离,共分三步:

第一步,找到最接近待分类样本的已分类样本,这就是所谓的最近邻。要找K个,这就是KNN中的K的由来。譬如说假设K为7,那就是由近到远数7个最靠近待分类样本的已分类样本点。

第二步,统计K个最近邻的分类,确定占比最大的那个类。假设说这7个里面,有3个正类,4个负类,正负占比3:4,占比最大的就是负类。

第三步,将待分类样本划归占比最大的那个类。接着上文,负类在K个最近邻中占比最大,那么待分类样本就是负类。分类结束。

就是这么简单。所以,千万不要因为数学而放弃学习机器学习。

不过,如果只写到这里就结束,也许现在你看得挺畅快,但总有一天会回来骂我营销号。

为什么呢?因为KNN的纯正数学0含量,其实细究起来,也不是那么纯。

在哪呢?也许这会你不太容易看出来,看看名字,数学就藏在最近邻这三个字里面。

最近邻最近邻,首先得测量距离,知道远近才能知道最近。

我们也许已经习惯了用尺子测距离,感觉距离就是个显而易见的事。不过,数学中对如何度量两点距离,其实发明了多种工具,我们常用的那种只是其中之一,称为欧几里得距离,或简称欧式距离。当然,这也是KNN中使用最多的距离度量工具。其它用得比较多的还有曼哈顿距离、闵可夫斯基,几种距离之间还有关系,也是个小小的数学世界。

下次再聊。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 睡前机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档