学界 | 周志华西瓜论の海外版:谷歌工程师用芒果解释机器学习

想必对人工智能有所了解的同学,都学习过周志华教授深入浅出的《机器学习》吧?

AI科技评论认为,其中尤为让人印象深刻的地方,莫过于从封面到每一章节贯彻的西瓜理论……

不论是从“什么样的西瓜才甜”引申出机器学习的含义,或是通过“西瓜各类特点的权重”介绍各类枯燥晦涩的概念及算法,周志华教授都用西瓜形象地做出了类比,让AI科技评论小编一度觉得周教授最喜欢的水果肯定是西瓜。

不过周志华教授的“西瓜论”是一本教科书,可能有更多的小白读者没有详细阅读每一章节,那么如何用同样的水果理论,以简洁的语句阐述机器学习的含义?

无独有偶,优秀的观点总是相似的。虽然《机器学习》并没有英文版本,但机器学习爱好者 Pararth Shah 2012 年在谷歌当实习生的时候,就在 Quora上用“芒果”类比,回答了“如何向没有计算机科学基础的人们解释机器学习与数据挖掘?”的问题。Pararth Shah 就读于斯坦福大学计算机学院,目前在谷歌研发及机器智能团队担任软件工程师。

他的完整回答如下,AI科技评论做了全文编译,与读者们分享:

买芒果

某天你去买芒果。你挑选后,小贩会称重,你需要根据根据重量乘以标记的固定单价来付钱。

毋庸置疑,你会选择那些最甜、最熟的芒果(因为是按重量计费而不是按质量)。那么你要怎么挑选呢?

你依稀记得,外婆告诉你,那些有光泽的黄芒果会比没光泽的黄芒果更甜。所以你就定下了一个挑选标准:只在那些有光泽的黄芒果里挑选。然后,你仔细观察了芒果的颜色,然后从中选出了那些有光泽的黄芒果,给钱,回家!然后,幸福和快乐是结局?

有点天真了。

生活总比想象中的复杂

你回到家开始吃芒果。然而其中有的芒果并不如你想象中的甜。你觉得人生崩塌了!很明显,你外婆所说的真理并不总是那么管用(外婆怎么会有错QAQ!)然而现实如此无情,你只能承认:除了颜色,选芒果肯定要考虑别的因素。

在深思熟虑后(吃了无数各种各样类型的芒果后),你得到一个结论,有光泽的黄色芒果肯定是甜的,但是个头小一点的有光泽黄色芒果只有一半概率是甜的(这个结论是这样得到的:如果你买了100个有光泽的黄色芒果,有50个是大的,50个是小的,而大芒果50个都是甜的,而小的则一半一半)。

哇哦,你觉得自己仿佛发现了一个新的真理,下次买芒果的时候决定把它当作圭臬。然而真相总是那么残酷,你发现你最喜欢的小贩不来了!你只能和另一个小贩买芒果了,但是他家的货是从其它村进的。然后你发现自己刚刚发现的真理又不管用了。你不得不重新开始品尝各种各样的芒果,最后得到的结论是:没光泽的黄色小芒果才是甜的。

突然有一天,住在另一个城市的远房表妹来看你,你想请人家吃芒果。然而,她特地和你强调,她不在意到底甜不甜,只要多汁就可以了。再一次(悲惨地),你又开始了吃芒果的试验,然后发现软的芒果最多汁。

随后,你又搬到了世界的另一端。在这个地方卖的芒果是另一个品种。经过实验,你发现绿色的芒果竟然比黄色的要好吃。

你结婚了,而你的太太非常讨厌芒果。她喜欢吃苹果。你又开始了买苹果的征程。以前你做出的关于芒果的种种结论,现在毫无意义了。你需要通过同样的试验,得到苹果外观与好吃与否的结论。你这么做了,因为你爱她。

还是赶紧引入计算机的概念吧

那么,想象你正在写一个程序,能够帮助你选芒果(或者苹果等别的什么玩意儿)。你写了一些类似这样的规则:

if (颜色是亮黄的 and 个头大的 and 我最喜欢的小贩): 芒果是甜的。 if (软的): 芒果多汁。 等等等等。

你会用这些规则去挑选芒果。你也会把这些规律发给你弟弟,告诉他这就是买芒果的真理。而且你也确信他会按照这些规则去选。

但每一次实验,你可能都会得到一些新的观察结果,你需要人为地调整这些规则。你需要理解影响芒果质量的所有因素,而且它们各自所占的比重是多少。

如果问题变得非常复杂,仅凭人为的判断也很难形成正确的结论。那么,你的研究可能让你在芒果科学顺利拿个PhD(如果真的有的话)。

但不是每个人都有这样的精力研究芒果的。

还是赶紧引入机器学习算法的概念吧

ML算法颠覆了传统的各种算法。它能够自动从提供的数据中学习,让你的程序变得更加聪明。

你随机从市场里挑选了一些芒果(训练数据),并做出每个芒果的特征数据表,从颜色、大小、形状、产地、小贩名字等等(特点),加上甜度、多汁度、成熟度(输出变量)。你将这些数据用来训练机器学习算法(分类/回归),然后它会建立一个芒果外观与质量的模型。

下一次你再去市场,你就选择一些有着典型特性的芒果(测试数据),然后用来检验这个ML算法。它会先得到一个芒果的甜度、多汁度和成熟度的结论。可能这个算法会采用你之前做的那种判断方法(决策树),也有可能采用其它的方法,但你不需要担心这一点。

耶!现在你可以信心满满地去买芒果了,不用担心挑选芒果需要考虑的种种细节。而且,你可以让算法变得越来越好(强化学习),如果它学习了足够多的训练数据,它能够提升准确性,而且在犯错时也能够及时改正。但最好的一点是,你可以用这个算法去训练不同的模型,不论是苹果橘子香蕉葡萄还是樱桃西瓜,你都能让你爱的人开开心心(吃到甜甜的水果)。

这就是机器学习能给予你的。如果你觉得不酷,来打我啊。

总而言之,机器学习就是:让你的算法变得聪明,这样你就不用自己撸袖子干了。

这个回答简直和周教授的西瓜论有异曲同工之妙,堪称浓缩版的水果机器学习导论。如果你对机器学习一无所知, 想必读完这个回答后也会豁然开朗不少吧。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-02-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

乔治·布尔二百周年:数理逻辑奠基者其人其事

2375
来自专栏ACM算法日常

关于如何培养算法思维的一点思考

最近收到公众号里一个同学的消息,大概意思是觉得自己做了很多题(可能是参考别人的题解),但是碰到问题还是经常没有思路,想问下如何才能正确的做题,以...

2102
来自专栏苦逼的码农

我是如何学习数据结构与算法的?

数据结构与算法的地位对于一个程序员来说不言而喻。今天这篇文章不是来劝你们学习数据结构与算法的,也不是来和你们说数据结构与算法有多重要。

2101
来自专栏后端技术探索

几道趣味算法面试题

1. 几道常见趣味算法面试题 1.1 绳子计时问题 1.2 两座岛运输加锁问题 1.3 马比赛问题 1.4 高楼逃生问题 1.5...

2063
来自专栏各种机器学习基础算法

NLTK学习笔记(二)

词意消歧 在词意消歧中,我们要算出特定上下文中的词被赋予的是哪个意思。 思考存在歧义的词 serve 和 dish: (1) a. serve: help wi...

2967
来自专栏Danny的专栏

Java之旅——起航篇

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/huyuyang6688/article/...

1091
来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[6.1]:自动编码器——定义

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会每天在公众号中推送一到两节课,并且对视频中的 PPT 进行讲解。课后,我们会设计一...

37212
来自专栏量子位

自学几小时,斯坦福AI推测并复现了元素周期表 | 华裔团队研究

923
来自专栏数据结构与算法

博弈论进阶之Every-SG

Every-SG 给定一张无向图,上面有一些棋子,两个顶尖聪明的人在做游戏,每人每次必须将可以移动的棋子进行移动,不能移动的人输 博弈分析 题目中的要求实...

3529
来自专栏一个会写诗的程序员的博客

【欧拉猜想】是否有无穷多个不可约分的正整数解

这类问题被称为 :欧拉猜想, 其中4和5的都有正整数解, 3的被证明了无整数解,其它的都还不知道。

923

扫码关注云+社区

领取腾讯云代金券