文章/答案/技术大牛

发布

机器学习十大经典算法和对人生的启迪，上篇

文章来源：企鹅号 - 科学思考

在历史文章中，介绍了深度学习的概念。与深度学习相对比，还有很多经典机器学习算法，它们不依赖于神经网络。所谓经典，是其价值不局限解决某个问题，而是值得反复玩味。

本期和下期文章，将介绍机器学习十大经典算法（严格来说是数据挖掘十大经典算法），和它们对人生的启迪。

一、K近邻（K Nearest Neighbour，KNN）

举例：假设算法见过很多鸟类，蜂鸟、麻雀、鸡鸭鹅、喜鹊，也见过很多哺乳动物，猫狗、牛马、虎豹。当它第一次见到燕子这个物种时，发现体形、翅膀像麻雀和喜鹊。于是，它认定，燕子属于鸟类。

它记录所有以往的经验，但不试图去归纳总结。当发生新的情况，它查找、对照记忆中k个类似的情况，投票做出判断。

6近邻算法：5方1圆，所以X应该为方

K近邻算法的极端情况是k=1，又称为最近邻算法。当它第一次看到燕子，根据体形、颜色、翅膀，它立即想到了喜鹊，判断燕子的属性和喜鹊相同，属于鸟类。

K近邻是机器学习方法中最朴素的方法，又被称为懒惰学习方法。最近邻算法是最简单的，但理论证明，在通常情况下，与其它人们挖空心思设计的算法相比，最近邻算法判断误差不超过它们的2倍。如果用一句话评价K近邻算法，那就是：简单而有底线。

缺点也很明显，需要记忆和查找很多的经验数据，这经常是不可行的。

人生启迪：观其友知其人。看看我们周边的关系最密切的人，他们在我们心中的印象，就是我们在别人心中的印象。错位借用一句古语，以人为鉴，可以正衣冠。

二、K均值（K means）

举例：一个组织人太多，上司要求将组织拆分成3个小组，先随便点了3个组长。小组的形成是这样的：

1、3个组长按照自己的喜好瓜分组员，形成3个小组。

2、3个小组的组员投票产生新的组长，新的组长反应了组员的最大共识。

3、如果新选出的组长跟之前相比没有变化，则形成了稳定的小组划分。否则回到第一个步骤。

同样以K打头，K近邻是有监督学习，需要打上标签的经验数据，任务是对具体样本做预测。而K均值属于聚类问题——典型的非监督学习，任务是对一堆样本做合理分类。

更严格的示意如下图所示，三个理想的组对应方、圆、三角三个分类，组长对应该类所有样本点的中心位置（又称均值），组员对应该类的单个样本点，选组长的过程就是从所有样本点，求得中心位置的过程。

人生启迪：物以类聚，人以群分。只会抱怨或者游走在组织的边缘，是没有用的。必须要有特立独行之处，才能跳出原有的圈囿。

三、支持向量机（Support Vector Machine, SVM）

举例：看看中国南海的九段线，是不是觉得很突兀。这不算过分，美国的夏威夷，英国宣称主权的马岛离本土都远得多。要说过分，请看下图希腊和土耳其的边境线，希腊的离岛简直要深入到土耳其的内海了，不要太欺负人啊。

这张图告诉我们，国界的划分，跟本土的形状和位置没有关系，尽管他们构成了国土面积的大部分。起到关键作用的是几个最前沿离岛的位置，沿着这些小岛连线，就是国界线的画法。

支持向量机算法用来解决机器学习中的分类问题，对于海量数据，是几乎唯一可行的最优算法，非常有名。跟画国界线对应，小岛就是“向量”，小岛“支持”着希腊的国界，把小岛连接起来的做法对应这个算法。有些思维特异的人喜欢把算法叫做“机”（machine），比如算法领域更为常见的状态机（State Machine）。支持向量机名字很拗口，发明一种很土、但是大家能听懂的名词解释支持向量机：关键点分隔算法。

更严格的示意请见下图，找到分类的绿色直线是机器学习的任务，它只跟左右两侧的两个或者三个关键点相关。其它的一大堆点都是打酱油的。

人生启迪：所谓淡泊，就是根本不去理会中间那条分界线，所谓提纲挈领，就是能识别、并抓住关键少数影响是非成败的关键点，所谓碌碌无为，就是把精力耗在照看那些远离分界线的大多数点上。

四、佩奇排名（Page Rank）

这个算法好像只用来做网页排名，所以也就不需要举例了。

当我们在网页上搜索一个技术名词时，维基百科经常被排在很靠前的位置。而搜索一个新闻时，门户网站的新闻链接往往又是最靠前的。谷歌、百度的搜索引擎需要把最权威、最有价值的网页呈现在搜索结果最显著的位置。而Page Rank的判断依据是，网页被其它网页的引用（链接指向）次数和权重。

如果被很多网页引用，说明这个网页很有价值，很权威，如果被已知很权威的网页引用，那更是以一当百。相反，我写的这些公众号文章，基本没有被其它网页引用（发现有文章被剽窃发表在门户网站的专栏里啦，不仗义啊），所以百度的搜索结果上也就不会显示我的文章啦。

佩奇是谷歌的创始人之一。Page Rank本意是以发明人命名，但Page本身又是网页的意思，很多人把Page Rank理解为网页排名算法，歪打正着，也不算错。

人生启迪：个人的价值是由外界评价的，自我感觉良好、莫名的优越感没有意义。推而广之，个人价值由它周围的团体界定，团体的价值由国家界定，国家的价值不是靠爱国主义者吹出来，而要在世界体系下来界定，人类的价值需要在生物圈界定，生物圈的价值需要在地球上界定，地球的价值需要在宇宙中界定。发现宇宙的来龙去脉，是判断个人价值的最终参考点。不知道自己从何而来，如何消亡，如何顺势而为？

古人云“格物致知，修身齐家治国平天下”。修身的基础，是对万物的深刻理解，它们构成价值观的基石。

五、期望最大化（Expectation-Maximization，EM）

举例：前面介绍的K均值算法中分成三个小组的例子中，当面临最优分组这个复杂的问题，不知道如何决策时，EM算法先假设3个人是合适的组长，然后让产生的小组再去优化组长，反复调整，直到达到最优值。

EM算法本质是承认没有能力一次获得最佳结果，曲线救国、迭代求解，先假设（期望），后优化（最大化利益），如此循环。

EM 算法逐步逼近中心位置

如果前面四种方法是“术”，EM算法就是一种更为本质的“道”。EM的道可以衍生出更多的算法，比如用提供深度信息的摄像机重构三维环境。

当摄像机移动时，它的位姿是未知的，需要根据视野中的图像来确定。但当摄像机移动后，图像中的对应点位置也发生了变化，造成无法匹配对应点。实际有效解决这个问题的算法就是EM算法，先假设对应点的像素位置没有改变，然后最优化摄像机位姿改变量，再预估对应点的位置，如此反复，这就是最近点搜索算法（Iterative Closest Points, ICP）。

正如梯度下降法，EM算法不能保证求得最优解。然而它们二者构成了机器学习非懒惰算法的基石，事实上解决了很多困难而又炫酷的问题。

人生启迪：面对复杂的环境，我们是自怨自艾、苦等万事俱备，还是主动出击、摸着石头过河，这是人生的重要课题。

很多事情在去做之前，不可能完全想明白。子曰：思而不学则怠。过度思考，不敢实践，损失的不仅是时间和机遇，还有自己的精气神。

总结

未完待续，两周后下篇一起总结吧。

发表于: 2018-01-282018-01-28 16:31:34
原文链接：http://kuaibao.qq.com/s/20180128G0CVRG00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

机器学习十大经典算法和对人生的启迪，上篇

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐