不添加任何数学成分的纯分类模型

木羊

发布于 2022-04-11 17:36:16

4170

发布于 2022-04-11 17:36:16

文章被收录于专栏：睡前机器学习

今天聊KNN。

先问一个问题：学机器学习，是一定要很了解数学吗？

是

......吗？也许现在说起机器学习，普遍都有一种印象，那就是机器学习的模型就是数学模型，需要学许多很复杂的数学符号和很难懂的数学概念才能弄懂原理。这也是让许多同学最终对机器学习望而却步的原因。

应该说吧，这印象也不算十分错，机器学习确实是一门交叉学科，用到了概率统计、线性代数、微分、信息论等等，光看这一个个的名字，哪怕不知道是啥意思，都会觉得机器学习根本就是数学的亲儿子。

不过，这里要说的是，学机器学习模型不是学数学。

现代数学最大的特点，就是演绎法构造了一套庞大的公理体系。这就是为什么总感觉学习数学，就是在学习各种定义、公理、推论和证明，是纯粹的逻辑游戏。

但机器学习不同。

机器学习最大的不同，在于机器学习是一套实践之学。机器学习模型最终总是要解决实际问题，可解释性很强但效用很糟糕的模型是流行不起来的。啥意思呢，就是光理论很漂亮，预测效果扑街，照样要完蛋。

反过来，如果模型的原理并不数学也不复杂，但是预测效果很好，反而能很快流行起来。一批从生活中攫取灵感的机器学习模型因此涌现出来。

譬如KNN。

KNN模型简单得异乎寻常，原理都在名字里了。

KNN，全称K-NearestNeighbor，可以直译为K个最近邻。对，这就是KNN模型进行分类的全部原理。不含任何数学成分，可以放心学习。完。

等等，感觉好像还是不很理解？

那了解一下KNN的分类过程就肯定理解了。

我们知道，样本点是有几个维度的值所构成，自然都能在坐标空间中表示。KNN分类就是通过测量样本点在空间中的距离，共分三步:

第一步，找到最接近待分类样本的已分类样本，这就是所谓的最近邻。要找K个，这就是KNN中的K的由来。譬如说假设K为7，那就是由近到远数7个最靠近待分类样本的已分类样本点。

第二步，统计K个最近邻的分类，确定占比最大的那个类。假设说这7个里面，有3个正类，4个负类，正负占比3:4，占比最大的就是负类。

第三步，将待分类样本划归占比最大的那个类。接着上文，负类在K个最近邻中占比最大，那么待分类样本就是负类。分类结束。

就是这么简单。所以，千万不要因为数学而放弃学习机器学习。

不过，如果只写到这里就结束，也许现在你看得挺畅快，但总有一天会回来骂我营销号。

为什么呢？因为KNN的纯正数学0含量，其实细究起来，也不是那么纯。

在哪呢？也许这会你不太容易看出来，看看名字，数学就藏在最近邻这三个字里面。

最近邻最近邻，首先得测量距离，知道远近才能知道最近。

我们也许已经习惯了用尺子测距离，感觉距离就是个显而易见的事。不过，数学中对如何度量两点距离，其实发明了多种工具，我们常用的那种只是其中之一，称为欧几里得距离，或简称欧式距离。当然，这也是KNN中使用最多的距离度量工具。其它用得比较多的还有曼哈顿距离、闵可夫斯基，几种距离之间还有关系，也是个小小的数学世界。

下次再聊。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-02-15，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习