学界 | 周志华西瓜论の海外版:谷歌工程师用芒果解释机器学习

想必对人工智能有所了解的同学,都学习过周志华教授深入浅出的《机器学习》吧?

AI科技评论认为,其中尤为让人印象深刻的地方,莫过于从封面到每一章节贯彻的西瓜理论……

不论是从“什么样的西瓜才甜”引申出机器学习的含义,或是通过“西瓜各类特点的权重”介绍各类枯燥晦涩的概念及算法,周志华教授都用西瓜形象地做出了类比,让AI科技评论小编一度觉得周教授最喜欢的水果肯定是西瓜。

不过周志华教授的“西瓜论”是一本教科书,可能有更多的小白读者没有详细阅读每一章节,那么如何用同样的水果理论,以简洁的语句阐述机器学习的含义?

无独有偶,优秀的观点总是相似的。虽然《机器学习》并没有英文版本,但机器学习爱好者 Pararth Shah 2012 年在谷歌当实习生的时候,就在 Quora上用“芒果”类比,回答了“如何向没有计算机科学基础的人们解释机器学习与数据挖掘?”的问题。Pararth Shah 就读于斯坦福大学计算机学院,目前在谷歌研发及机器智能团队担任软件工程师。

他的完整回答如下,AI科技评论做了全文编译,与读者们分享:

买芒果

某天你去买芒果。你挑选后,小贩会称重,你需要根据根据重量乘以标记的固定单价来付钱。

毋庸置疑,你会选择那些最甜、最熟的芒果(因为是按重量计费而不是按质量)。那么你要怎么挑选呢?

你依稀记得,外婆告诉你,那些有光泽的黄芒果会比没光泽的黄芒果更甜。所以你就定下了一个挑选标准:只在那些有光泽的黄芒果里挑选。然后,你仔细观察了芒果的颜色,然后从中选出了那些有光泽的黄芒果,给钱,回家!然后,幸福和快乐是结局?

有点天真了。

生活总比想象中的复杂

你回到家开始吃芒果。然而其中有的芒果并不如你想象中的甜。你觉得人生崩塌了!很明显,你外婆所说的真理并不总是那么管用(外婆怎么会有错QAQ!)然而现实如此无情,你只能承认:除了颜色,选芒果肯定要考虑别的因素。

在深思熟虑后(吃了无数各种各样类型的芒果后),你得到一个结论,有光泽的黄色芒果肯定是甜的,但是个头小一点的有光泽黄色芒果只有一半概率是甜的(这个结论是这样得到的:如果你买了100个有光泽的黄色芒果,有50个是大的,50个是小的,而大芒果50个都是甜的,而小的则一半一半)。

哇哦,你觉得自己仿佛发现了一个新的真理,下次买芒果的时候决定把它当作圭臬。然而真相总是那么残酷,你发现你最喜欢的小贩不来了!你只能和另一个小贩买芒果了,但是他家的货是从其它村进的。然后你发现自己刚刚发现的真理又不管用了。你不得不重新开始品尝各种各样的芒果,最后得到的结论是:没光泽的黄色小芒果才是甜的。

突然有一天,住在另一个城市的远房表妹来看你,你想请人家吃芒果。然而,她特地和你强调,她不在意到底甜不甜,只要多汁就可以了。再一次(悲惨地),你又开始了吃芒果的试验,然后发现软的芒果最多汁。

随后,你又搬到了世界的另一端。在这个地方卖的芒果是另一个品种。经过实验,你发现绿色的芒果竟然比黄色的要好吃。

你结婚了,而你的太太非常讨厌芒果。她喜欢吃苹果。你又开始了买苹果的征程。以前你做出的关于芒果的种种结论,现在毫无意义了。你需要通过同样的试验,得到苹果外观与好吃与否的结论。你这么做了,因为你爱她。

还是赶紧引入计算机的概念吧

那么,想象你正在写一个程序,能够帮助你选芒果(或者苹果等别的什么玩意儿)。你写了一些类似这样的规则:

if (颜色是亮黄的 and 个头大的 and 我最喜欢的小贩): 芒果是甜的。 if (软的): 芒果多汁。 等等等等。

你会用这些规则去挑选芒果。你也会把这些规律发给你弟弟,告诉他这就是买芒果的真理。而且你也确信他会按照这些规则去选。

但每一次实验,你可能都会得到一些新的观察结果,你需要人为地调整这些规则。你需要理解影响芒果质量的所有因素,而且它们各自所占的比重是多少。

如果问题变得非常复杂,仅凭人为的判断也很难形成正确的结论。那么,你的研究可能让你在芒果科学顺利拿个PhD(如果真的有的话)。

但不是每个人都有这样的精力研究芒果的。

还是赶紧引入机器学习算法的概念吧

ML算法颠覆了传统的各种算法。它能够自动从提供的数据中学习,让你的程序变得更加聪明。

你随机从市场里挑选了一些芒果(训练数据),并做出每个芒果的特征数据表,从颜色、大小、形状、产地、小贩名字等等(特点),加上甜度、多汁度、成熟度(输出变量)。你将这些数据用来训练机器学习算法(分类/回归),然后它会建立一个芒果外观与质量的模型。

下一次你再去市场,你就选择一些有着典型特性的芒果(测试数据),然后用来检验这个ML算法。它会先得到一个芒果的甜度、多汁度和成熟度的结论。可能这个算法会采用你之前做的那种判断方法(决策树),也有可能采用其它的方法,但你不需要担心这一点。

耶!现在你可以信心满满地去买芒果了,不用担心挑选芒果需要考虑的种种细节。而且,你可以让算法变得越来越好(强化学习),如果它学习了足够多的训练数据,它能够提升准确性,而且在犯错时也能够及时改正。但最好的一点是,你可以用这个算法去训练不同的模型,不论是苹果橘子香蕉葡萄还是樱桃西瓜,你都能让你爱的人开开心心(吃到甜甜的水果)。

这就是机器学习能给予你的。如果你觉得不酷,来打我啊。

总而言之,机器学习就是:让你的算法变得聪明,这样你就不用自己撸袖子干了。

这个回答简直和周教授的西瓜论有异曲同工之妙,堪称浓缩版的水果机器学习导论。如果你对机器学习一无所知, 想必读完这个回答后也会豁然开朗不少吧。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-02-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【机器学习】机器学习大白话

买芒果 嘴馋的你想吃芒果了,于是你走到水果摊,挑了几个让老板过过秤,然后你再根据芒果的斤两付钱走人。 显然,买芒果你当然是挑着最甜、最熟的来买(因为你是根据重量...

2475
来自专栏AI研习社

数学来了 | 又是线性变换!矩阵算法教做人系列

历史长河里,世世代代的教授和教科书撰写人,总是用荒谬复杂的矩阵计算,掩盖数学真实的简洁模样。

662
来自专栏大数据文摘

重磅课程 | 牛津xDeepMind自然语言处理汉化视频更新:Lecture 2b 实践课概述

1112
来自专栏牛客网

阿里算法工程师面经

1906
来自专栏数据科学与人工智能

【机器学习】如何向外行解释机器学习和数据挖掘

对于那些非计算机科学行业的人,你会如何向他们解释机器学习和数据挖掘? 斯坦福大学的印度学生、机器学习爱好者 Pararth Shah 在2012年12月22日的...

2658
来自专栏顾宇的研习笔记

记武汉2016年第一期学习力提升工作坊——MVP设计篇

我在加入 ThoughtWorks 的第一年间完成了8门 Coursera 课程的学习并获得了认证。但是,如果让我来讲授这11门课的任何一门,我能讲授的课程数量...

562
来自专栏牛客网

左程云:程序员该如何学习算法?

大家好,我是左程云。我本科就读于华中科技大学、硕士毕业于在芝加哥大学。先后在IBM、百度、GrowingIO和亚马逊工作,是一个刷题7年的算法爱好者,也是牛客网...

4658
来自专栏华章科技

机器学习Lasso算法的前世今生

众所周知,机器学习的模型与统计有着千丝万缕的联系。阅读本文后,你才恍然发现,鼎鼎大名的Lasso算法思想锤炼的背后,蕴藏着学生氏分布关于酿酒的小秘密,还可以窥视...

812
来自专栏Pythonista

html菜单和课程表

441
来自专栏PPV课数据科学社区

一位美国TOP10统计专业本科生的经验:别走我这样的弯路

平日里,有四成以上的疑难提问来自于计量与统计,相信统计的学习和进阶也是所有经管专业的BABY们绕不过去的一道坎儿,若能以较高的水平精通一门以上的统计工具,对学习...

2738

扫码关注云+社区