首页
学习
活动
专区
工具
TVP
发布

机器学习十大经典算法和对人生的启迪,上篇

在历史文章中,介绍了深度学习的概念。与深度学习相对比,还有很多经典机器学习算法,它们不依赖于神经网络。所谓经典,是其价值不局限解决某个问题,而是值得反复玩味。

本期和下期文章,将介绍机器学习十大经典算法(严格来说是数据挖掘十大经典算法),和它们对人生的启迪。

一、K近邻(K Nearest Neighbour,KNN)

举例:假设算法见过很多鸟类,蜂鸟、麻雀、鸡鸭鹅、喜鹊,也见过很多哺乳动物,猫狗、牛马、虎豹。当它第一次见到燕子这个物种时,发现体形、翅膀像麻雀和喜鹊。于是,它认定,燕子属于鸟类。

它记录所有以往的经验,但不试图去归纳总结。当发生新的情况,它查找、对照记忆中k个类似的情况,投票做出判断。

6近邻算法:5方1圆,所以X应该为方

K近邻算法的极端情况是k=1,又称为最近邻算法。当它第一次看到燕子,根据体形、颜色、翅膀,它立即想到了喜鹊,判断燕子的属性和喜鹊相同,属于鸟类。

K近邻是机器学习方法中最朴素的方法,又被称为懒惰学习方法。最近邻算法是最简单的,但理论证明,在通常情况下,与其它人们挖空心思设计的算法相比,最近邻算法判断误差不超过它们的2倍。如果用一句话评价K近邻算法,那就是:简单而有底线。

缺点也很明显,需要记忆和查找很多的经验数据,这经常是不可行的。

人生启迪:观其友知其人。看看我们周边的关系最密切的人,他们在我们心中的印象,就是我们在别人心中的印象。错位借用一句古语,以人为鉴,可以正衣冠。

二、K均值(K means)

举例:一个组织人太多,上司要求将组织拆分成3个小组,先随便点了3个组长。小组的形成是这样的:

1、3个组长按照自己的喜好瓜分组员,形成3个小组。

2、3个小组的组员投票产生新的组长,新的组长反应了组员的最大共识。

3、如果新选出的组长跟之前相比没有变化,则形成了稳定的小组划分。否则回到第一个步骤。

同样以K打头,K近邻是有监督学习,需要打上标签的经验数据,任务是对具体样本做预测。而K均值属于聚类问题——典型的非监督学习,任务是对一堆样本做合理分类。

更严格的示意如下图所示,三个理想的组对应方、圆、三角三个分类,组长对应该类所有样本点的中心位置(又称均值),组员对应该类的单个样本点,选组长的过程就是从所有样本点,求得中心位置的过程。

人生启迪:物以类聚,人以群分。只会抱怨或者游走在组织的边缘,是没有用的。必须要有特立独行之处,才能跳出原有的圈囿。

三、支持向量机(Support Vector Machine, SVM)

举例:看看中国南海的九段线,是不是觉得很突兀。这不算过分,美国的夏威夷,英国宣称主权的马岛离本土都远得多。要说过分,请看下图希腊和土耳其的边境线,希腊的离岛简直要深入到土耳其的内海了,不要太欺负人啊。

这张图告诉我们,国界的划分,跟本土的形状和位置没有关系,尽管他们构成了国土面积的大部分。起到关键作用的是几个最前沿离岛的位置,沿着这些小岛连线,就是国界线的画法。

支持向量机算法用来解决机器学习中的分类问题,对于海量数据,是几乎唯一可行的最优算法,非常有名。跟画国界线对应,小岛就是“向量”,小岛“支持”着希腊的国界,把小岛连接起来的做法对应这个算法。有些思维特异的人喜欢把算法叫做“机”(machine),比如算法领域更为常见的状态机(State Machine)。支持向量机名字很拗口,发明一种很土、但是大家能听懂的名词解释支持向量机:关键点分隔算法。

更严格的示意请见下图,找到分类的绿色直线是机器学习的任务,它只跟左右两侧的两个或者三个关键点相关。其它的一大堆点都是打酱油的。

人生启迪:所谓淡泊,就是根本不去理会中间那条分界线,所谓提纲挈领,就是能识别、并抓住关键少数影响是非成败的关键点,所谓碌碌无为,就是把精力耗在照看那些远离分界线的大多数点上。

四、佩奇排名(Page Rank)

这个算法好像只用来做网页排名,所以也就不需要举例了。

当我们在网页上搜索一个技术名词时,维基百科经常被排在很靠前的位置。而搜索一个新闻时,门户网站的新闻链接往往又是最靠前的。谷歌、百度的搜索引擎需要把最权威、最有价值的网页呈现在搜索结果最显著的位置。而Page Rank的判断依据是,网页被其它网页的引用(链接指向)次数和权重。

如果被很多网页引用,说明这个网页很有价值,很权威,如果被已知很权威的网页引用,那更是以一当百。相反,我写的这些公众号文章,基本没有被其它网页引用(发现有文章被剽窃发表在门户网站的专栏里啦,不仗义啊),所以百度的搜索结果上也就不会显示我的文章啦。

佩奇是谷歌的创始人之一。Page Rank本意是以发明人命名,但Page本身又是网页的意思,很多人把Page Rank理解为网页排名算法,歪打正着,也不算错。

人生启迪:个人的价值是由外界评价的,自我感觉良好、莫名的优越感没有意义。推而广之,个人价值由它周围的团体界定,团体的价值由国家界定,国家的价值不是靠爱国主义者吹出来,而要在世界体系下来界定,人类的价值需要在生物圈界定,生物圈的价值需要在地球上界定,地球的价值需要在宇宙中界定。发现宇宙的来龙去脉,是判断个人价值的最终参考点。不知道自己从何而来,如何消亡,如何顺势而为?

古人云“格物致知,修身齐家治国平天下”。修身的基础,是对万物的深刻理解,它们构成价值观的基石。

五、期望最大化(Expectation-Maximization,EM)

举例:前面介绍的K均值算法中分成三个小组的例子中,当面临最优分组这个复杂的问题,不知道如何决策时,EM算法先假设3个人是合适的组长,然后让产生的小组再去优化组长,反复调整,直到达到最优值。

EM算法本质是承认没有能力一次获得最佳结果,曲线救国、迭代求解,先假设(期望),后优化(最大化利益),如此循环。

EM 算法逐步逼近中心位置

如果前面四种方法是“术”,EM算法就是一种更为本质的“道”。EM的道可以衍生出更多的算法,比如用提供深度信息的摄像机重构三维环境。

当摄像机移动时,它的位姿是未知的,需要根据视野中的图像来确定。但当摄像机移动后,图像中的对应点位置也发生了变化,造成无法匹配对应点。实际有效解决这个问题的算法就是EM算法,先假设对应点的像素位置没有改变,然后最优化摄像机位姿改变量,再预估对应点的位置,如此反复,这就是最近点搜索算法(Iterative Closest Points, ICP)。

正如梯度下降法,EM算法不能保证求得最优解。然而它们二者构成了机器学习非懒惰算法的基石,事实上解决了很多困难而又炫酷的问题。

人生启迪:面对复杂的环境,我们是自怨自艾、苦等万事俱备,还是主动出击、摸着石头过河,这是人生的重要课题。

很多事情在去做之前,不可能完全想明白。子曰:思而不学则怠。过度思考,不敢实践,损失的不仅是时间和机遇,还有自己的精气神。

总结

未完待续,两周后下篇一起总结吧。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180128G0CVRG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券