学界 | 周志华西瓜论の海外版:谷歌工程师用芒果解释机器学习

想必对人工智能有所了解的同学,都学习过周志华教授深入浅出的《机器学习》吧?

AI科技评论认为,其中尤为让人印象深刻的地方,莫过于从封面到每一章节贯彻的西瓜理论……

不论是从“什么样的西瓜才甜”引申出机器学习的含义,或是通过“西瓜各类特点的权重”介绍各类枯燥晦涩的概念及算法,周志华教授都用西瓜形象地做出了类比,让AI科技评论小编一度觉得周教授最喜欢的水果肯定是西瓜。

不过周志华教授的“西瓜论”是一本教科书,可能有更多的小白读者没有详细阅读每一章节,那么如何用同样的水果理论,以简洁的语句阐述机器学习的含义?

无独有偶,优秀的观点总是相似的。虽然《机器学习》并没有英文版本,但机器学习爱好者 Pararth Shah 2012 年在谷歌当实习生的时候,就在 Quora上用“芒果”类比,回答了“如何向没有计算机科学基础的人们解释机器学习与数据挖掘?”的问题。Pararth Shah 就读于斯坦福大学计算机学院,目前在谷歌研发及机器智能团队担任软件工程师。

他的完整回答如下,AI科技评论做了全文编译,与读者们分享:

买芒果

某天你去买芒果。你挑选后,小贩会称重,你需要根据根据重量乘以标记的固定单价来付钱。

毋庸置疑,你会选择那些最甜、最熟的芒果(因为是按重量计费而不是按质量)。那么你要怎么挑选呢?

你依稀记得,外婆告诉你,那些有光泽的黄芒果会比没光泽的黄芒果更甜。所以你就定下了一个挑选标准:只在那些有光泽的黄芒果里挑选。然后,你仔细观察了芒果的颜色,然后从中选出了那些有光泽的黄芒果,给钱,回家!然后,幸福和快乐是结局?

有点天真了。

生活总比想象中的复杂

你回到家开始吃芒果。然而其中有的芒果并不如你想象中的甜。你觉得人生崩塌了!很明显,你外婆所说的真理并不总是那么管用(外婆怎么会有错QAQ!)然而现实如此无情,你只能承认:除了颜色,选芒果肯定要考虑别的因素。

在深思熟虑后(吃了无数各种各样类型的芒果后),你得到一个结论,有光泽的黄色芒果肯定是甜的,但是个头小一点的有光泽黄色芒果只有一半概率是甜的(这个结论是这样得到的:如果你买了100个有光泽的黄色芒果,有50个是大的,50个是小的,而大芒果50个都是甜的,而小的则一半一半)。

哇哦,你觉得自己仿佛发现了一个新的真理,下次买芒果的时候决定把它当作圭臬。然而真相总是那么残酷,你发现你最喜欢的小贩不来了!你只能和另一个小贩买芒果了,但是他家的货是从其它村进的。然后你发现自己刚刚发现的真理又不管用了。你不得不重新开始品尝各种各样的芒果,最后得到的结论是:没光泽的黄色小芒果才是甜的。

突然有一天,住在另一个城市的远房表妹来看你,你想请人家吃芒果。然而,她特地和你强调,她不在意到底甜不甜,只要多汁就可以了。再一次(悲惨地),你又开始了吃芒果的试验,然后发现软的芒果最多汁。

随后,你又搬到了世界的另一端。在这个地方卖的芒果是另一个品种。经过实验,你发现绿色的芒果竟然比黄色的要好吃。

你结婚了,而你的太太非常讨厌芒果。她喜欢吃苹果。你又开始了买苹果的征程。以前你做出的关于芒果的种种结论,现在毫无意义了。你需要通过同样的试验,得到苹果外观与好吃与否的结论。你这么做了,因为你爱她。

还是赶紧引入计算机的概念吧

那么,想象你正在写一个程序,能够帮助你选芒果(或者苹果等别的什么玩意儿)。你写了一些类似这样的规则:

if (颜色是亮黄的 and 个头大的 and 我最喜欢的小贩): 芒果是甜的。 if (软的): 芒果多汁。 等等等等。

你会用这些规则去挑选芒果。你也会把这些规律发给你弟弟,告诉他这就是买芒果的真理。而且你也确信他会按照这些规则去选。

但每一次实验,你可能都会得到一些新的观察结果,你需要人为地调整这些规则。你需要理解影响芒果质量的所有因素,而且它们各自所占的比重是多少。

如果问题变得非常复杂,仅凭人为的判断也很难形成正确的结论。那么,你的研究可能让你在芒果科学顺利拿个PhD(如果真的有的话)。

但不是每个人都有这样的精力研究芒果的。

还是赶紧引入机器学习算法的概念吧

ML算法颠覆了传统的各种算法。它能够自动从提供的数据中学习,让你的程序变得更加聪明。

你随机从市场里挑选了一些芒果(训练数据),并做出每个芒果的特征数据表,从颜色、大小、形状、产地、小贩名字等等(特点),加上甜度、多汁度、成熟度(输出变量)。你将这些数据用来训练机器学习算法(分类/回归),然后它会建立一个芒果外观与质量的模型。

下一次你再去市场,你就选择一些有着典型特性的芒果(测试数据),然后用来检验这个ML算法。它会先得到一个芒果的甜度、多汁度和成熟度的结论。可能这个算法会采用你之前做的那种判断方法(决策树),也有可能采用其它的方法,但你不需要担心这一点。

耶!现在你可以信心满满地去买芒果了,不用担心挑选芒果需要考虑的种种细节。而且,你可以让算法变得越来越好(强化学习),如果它学习了足够多的训练数据,它能够提升准确性,而且在犯错时也能够及时改正。但最好的一点是,你可以用这个算法去训练不同的模型,不论是苹果橘子香蕉葡萄还是樱桃西瓜,你都能让你爱的人开开心心(吃到甜甜的水果)。

这就是机器学习能给予你的。如果你觉得不酷,来打我啊。

总而言之,机器学习就是:让你的算法变得聪明,这样你就不用自己撸袖子干了。

这个回答简直和周教授的西瓜论有异曲同工之妙,堪称浓缩版的水果机器学习导论。如果你对机器学习一无所知, 想必读完这个回答后也会豁然开朗不少吧。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-02-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

Atari联合创始人去世,为什么游戏对AI很重要?

842
来自专栏罗超频道

【深度】自然语言处理成为未来差什么

说起实现各种各样的智能系统,大家都认为“善解人意”应该是一个最起码的条件,一个绕不过去的条件。实现它的一个重要的桥梁就是语言。 拿语言说事,这个我们见得很多了。...

4047
来自专栏华章科技

人类6大未解谜题、世界著名10大思想实验和哲学命题

导读:当人工智能发展到可以跟你流利对话的程度,是否意味着它已真正拥有智能并学会思考?

702
来自专栏华章科技

人工智能发展简史

投稿和反馈请发邮件至hzzy@hzbook.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

441
来自专栏机器人网

这位贾老板登场:波士顿动力的Atlas都是小CASE

本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处 美国的贾老板最近又成了话题人物。 这个贾老板,不是山西那个,是货真价实的美国人。...

3247
来自专栏理论坞

我们为什么需要理论?

把设计当作建房子,理论就是盖房子的方法原理,只用沙石砖瓦,那很难盖好一座房子的,就别提一栋大厦了。如果知道了盖房子的方法,知道用多少材料,那么不仅事半功倍还能节...

91
来自专栏AI科技评论

学界 | 如何提高NIPS论文命中率?这里有一份详细的分析

在学术界,NIPS大会在论文方面的争议似乎比其他学术会议更为突出一些。例如去年在ML圈子里影响颇大的SARM论文撤稿事件就是在NIPS,以及像这位叫Thang ...

3497
来自专栏大数据文摘

主宰宇宙宿命的法则:揭秘物理世界的四大定律

27611
来自专栏大数据文摘

MIT博士分析690万条视频后,得出...

1113
来自专栏奇点大数据

数据科学家节选(1)

【节选自即将由电子工业出版社出版的《数据科学家养成手册》第一章】 什么是科学家 从我们每个人上学前班的时候,我们就开始受到各种各样的启蒙教育,哪怕是捏橡皮泥、...

3346

扫描关注云+社区