写给大家看的机器学习书【Part4】—— 机器学习为什么是可行的(上)

作者:徐晗曦 原文:写给大家看的机器学习书(第四篇)—— 机器学习为什么是可行的(上)https://zhuanlan.zhihu.com/p/25721582 前文: 【Part1】什么是机器学习?机器学到的到底是什么? 【Part2】训练数据长什么样?机器学到的模型是什么? 【Part3】直观易懂的感知机学习算法PLA

这个系列文章,我将试着为开发工程师,产品经理、设计师、所有希望了解学习机器学习的人,介绍机器学习的原理、方法和实战技巧。

你敢跟着机器学习投资吗?

系列文章学到这里,我们已经理解了机器学习的概念,也掌握了一个具体的学习算法 (Learning Algorithm)。似乎机器学习的大门已经打开,以后了解更深的模型,学习更多的技法,一帆风顺的样子。

不过稍等一会,让我们再回顾一下到目前为止我们所学到的机器学习概念:根据训练数据,从假设集合 (Hypothesis Set) 中挑出一个最优的假设 g 作为学得的模型。

有没有人在学习的过程中有过这么一丝疑虑:

这个由训练数据也就是历史日志学得的模型,真的能在未来的预测中表现的一样好吗?

如果你还记得图1左上角的那个”上帝真相”(Ground Truth),那个只有上帝才知道的完美模型 f ,我想问:

我们学到的模型 g 真的能像 f 一样完美地预测未来吗?

不妨再具体一些,股市中我们根据历史数据学到了一个表现很不错的模型,你敢按照模型对未来的预判操作真金白银的投资吗?

你是否也有过那么一时三刻的不自信,所谓“以史为鉴,可以知兴亡”,从历史中总结出的规律,是否真的能在未来的预测中被信赖?为了做一个对未来负责的机器学习专家,从这一篇开始的上下两篇,我们将试着解答这个疑惑,即

模型对未来的预测真的是可信的吗?

图1:

没有人可以预测未来

别傻了,没有人可以预测未来。 ——《来自未来》

我们先来看下面这个例子。

也不知是谁从哪儿搞来了这么几条数据,整理成表格1的前三列所示( | 样本编号 | 特征 | 标注 | ),希望我们找出特征和标注之间的规律。

于是,八汰、霹霹、王抗美、沃伯特 4 位算法工程师对这个问题进行了学习,最终得到了4个模型。

  • 据说八汰使用了PLA学习算法,学得了模型g1。他把g1所逼近的 Ground Truth 记作f1。
  • 据说霹霹使用了强化学习算法,学得了模型g2。他把g2所逼近的 Ground Truth 记作f2。
  • 据说王抗美使用了深度学习算法,学得了模型g3。他把g3所逼近的 Ground Truth 记作f3。
  • 而沃伯特则没有透露他的算法,总之得到了模型g4。他把g4所逼近的 Ground Truth 记作f4。

这 4 个模型学得怎么样呢?我们来看看表格1的后4列,这4列记录了模型的输出。比照第三列的样本标注可以看到,在训练数据上模型的输出和样本标注完全一致,4个人的模型都表现的相当好。

不过我们也知道,在训练数据上表现得好那不是真的好,模型最终是希望对未知数据进行可靠地预测,预测得准才是真的准。于是找来了表格2中的两条数据,这两条数据的标注是未知的,让4个人的模型预测一下标注会是什么。

结果如表格2的后4列所示,棘手的情况发生了! 4个人的模型竟然给出了完全不同的预测。

  • 八汰的模型:预测的结果是 1和 −1。
  • 霹霹的模型:预测的结果是 −1和 −1。
  • 王抗美的模型:预测的结果是 1和 1。
  • 沃伯特的模型:预测的结果是 −1和 1。

这可就懵圈了,4 个人用 4 种不同的算法,学得的模型都在训练数据上获得了完美的表现,但是预测的结果却完全不同。

那到底应该相信谁的算法呢?谁的预测才是准确的呢?

很抱歉,让大家走了那么远,现在要告诉您一个可能有点颠覆的结论:

机器学习中有个非常著名的 No Free Lunch (NFL) 定理 (https://en.wikipedia.org/wiki/No_free_lunch_theorem) 告诉我们,在这个例子描述的情况下,这些算法的期望水平是一样的。

更要命的是,沃伯特这个时候说他根本没有用什么机器学习算法,他的预测是靠瞎猜决定的。如果他说的是真的,这也就意味着 No free Lunch 定理告诉我们,那些高深算法得到的模型竟然跟瞎猜是同等水平的。

怎么可能??这个人说谎的吧!!

他没有说谎,沃伯特,原名 David H. Wolpert (https://scholar.google.com/citations?user=PRjgI8kAAAAJ),他就是提出并证明了 No Free Lunch 定理的科学家本人。No Free Lunch,即天下没有白吃的午餐,是所有机器学习专家求学路上的一记板砖。

在 No Free Lunch 之后的世界观重塑

No Free Lunch,这顿难以下咽的午餐一下摧毁了我们对于机器学习的信念。各种学习算法竟然都跟瞎猜差不多!那机器学习根本是不可能的吧,怎么可能信任瞎猜算法去投资呢?

是不是遗漏了什么啊?!

是的,确实遗漏了很重要的一个前提。让我们闪回到上一小节的这段话

“机器学习中有个非常著名的 No Free Lunch (NFL) 定理告诉我们,在这个例子描述的情况下,这些算法的期望水平是一样的。”

注意这句:“在这个例子描述的情况下”!也就是说 NFL 定理有个很重要的前提,只有在像上面这个例子描述的情况下才会导致各种精巧的机器学习算法跟瞎猜差不多,而在许多具体的实际应用场景中,并不满足这个前提。

那到底“上面这个例子描述的情况”是指什么呢?好好记住它:

NFL定理在阐述的过程中假设了 f 的均匀分布,即所有潜在的可能性发生的概率是一样的。

具体来说,在上面的例子中,在这批不知从哪儿来的训练数据的情况下,可能产生训练数据的 Ground Truth f 有多个,但又因为没有具体的场景,导致这多个 f 是真正产生这批训练数据的 Ground Truth 的概率是一样的。

而无论哪种学习算法必定最终倾向了其中的某个 f ,因此最终这些算法的期望水平就是一样的。(学习算法的这种倾向,称为学习算法的归纳偏好(inductive bias),简称“偏好”。)

后面我们会看到,在具体的实际场景中,某些 f 代表的可能性发生的概率大,某些 f 代表的可能性发生的概率小,某些可能性则根本不会发生。它们的概率不是均等的,因此不再满足NFL定理的前提。举个例子,比如有一个不透明的存钱罐,里面有几百颗硬币。你随机抓出一把发现抓上来的全都是1元的硬币。这时让你预测再捞一次发生的情况,很显然捞上来全部是1角的概率,就会远远的低于全部是1元的概率。

这个时候的黑色罐子,在我们看不见的上帝真相之间,世界发生了倾斜。

于是,在具体的现实问题中,那些归纳偏好与问题本身匹配的算法就能取得很好的效果,从而另学习是可行的。

最终总结一句,我们花了那么大的力气,绕了一大圈连蒙太奇都用上了,就是希望你能理解NFL定理背后所表达的哲学,即:

脱离具体问题讨论机器学习算法的好坏,是没有意义的。

如果有人声称XX学习算法就是比YY学习算法厉害,多半不是骗子,就是坏人。

预告和其它

由于业余时间和精力的有限,未能在一周之内完成这个主题——“机器学习为什么是可行的”,只好分成上、下两篇。这个系列的写作能够进入到第四篇甚至是第五篇,已经超出我最初的想象。感谢所有给予我鼓励的阅读者,每周一篇的写作对于我来说是考验却也收获颇多,希望自己能坚持下去,也希望这个系列文章能给您带去一点点价值。

再次感谢您的阅读,这里是《写给大家看的机器学习书》,我是八汰。如果您希望收到后续文章的更新,可以考虑关注我 https://www.zhihu.com/people/hancy/activities。或者关注这个同名专栏 https://zhuanlan.zhihu.com/machine-learning-book,文章将会在您的通知中心推送更新。

祝开心 :)


原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2017-03-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

【教程】深度学习全网最全学习资料汇总之入门篇

【AI研习社】关注AI前沿、开发技巧及技术教程等方面的内容。欢迎技术开发类文章、视频教程等内容投稿,邮件发送至:zhangxian@leiphone.com ...

4746
来自专栏大数据文摘

学界 | 谁来拯救集体失灵的NLP模型?

机器能够像人类一样阅读文档并回答问题,确定某一给定的语句是否在语义上蕴含另一给定的语句,还能处理翻译任务。更重要的是,机器的表现甚至优于人类。

1252
来自专栏新智元

【重磅】深度学习难以加冕算法之王 3 大根本原因

【新智元导读】New Frontiers in Computing 2016 日前在斯坦福举行, 探讨视觉、NPL、人机界面等认知和计算前沿问题。本文是参会笔记...

3878
来自专栏新智元

DeepMind成员、谷歌资深员工:神经网络序列学习突破及发展(附报告下载)

【新智元导读】谷歌CEO在给投资人的信中写道谷歌搜索将更具有情景意识,其关键技术自然是深度学习。本文中,谷歌资深员工、DeepMind 成员 Oriol Vin...

3697
来自专栏新智元

5月机器学习TOP 10热文: Google Duplex,“换脸术”、网格单元(附文章地址)

1644
来自专栏雪胖纸的玩蛇日常

1.0初识机器学习

1174
来自专栏机器之心

构建强化学习系统,你需要先了解这些背景知识

3116
来自专栏专知

干货:必读机器学习书籍一览表

【导读】转眼之间春节假期已所剩无几,大家是否也开始制定新一年的学习计划?本文就为大家推荐一个机器学习书单,其中大多数可以免费观看,并附上pdf链接。书单内容包括...

34911
来自专栏量子位

深度学习进化编年大事记

安妮 编译自 Import.io官方博客 量子位出品 | 公众号 QbitAI 本文作者Andrew Fogg,可视化网页抓取网站Import.io的联合创始人...

3767
来自专栏大数据文摘

Facebook人工智能实验室负责人讲深度学习

2166

扫码关注云+社区

领取腾讯云代金券