前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >睡前读书 | 机器学习基础(Foundations of Machine Learning)该怎么读

睡前读书 | 机器学习基础(Foundations of Machine Learning)该怎么读

作者头像
木羊
发布2022-04-11 17:38:49
1.2K0
发布2022-04-11 17:38:49
举报
文章被收录于专栏:睡前机器学习

今天聊《机器学习基础》。

最近都在读《机器学习基础》,觉得挺不错。书是由三个分别来自谷歌研究院、纽约大学、卡耐基梅隆大学的人写的,一听就感觉阵容强大。不仅如此,第一作者是莫里(Mohri)教授,两个字评价,泰斗。另外两位作者也不是别人,正是莫里教授的高徒。这本书也不是即兴之作,是由莫里教授长期开设的机器学习研究生课程的讲义整理而来,所以理所当然,这本书推荐的人很多。

英文书名《Foundations of Machine Learning》,瞄了眼豆瓣,居然9.1分,惊为天人。虽说豆瓣对于技术类书籍的打分有一言难尽的地方,不过同样是豆瓣,这本比另一本我觉得也十分不错的机器学习教材高了快1分,优势确实很大。需要特别提醒的是,虽说叫“基础”,但人家指的是研究生专业课的基础,如果指望从1+1教起,或者想好读不烫嘴,还请先读我的那本《机器学习算法的数学解析与Python实现》过渡一下。

1.一点介绍

前面我曾经介绍说,市面机器学习的教材大概分两类,一类偏向数学,一类偏向编程。这本书属于前者,是本讲机器学习数学基础的书,书名中的“基础”(Foundations)想必正是此意。

这就有点难了。对我这样水平比凡夫俗子还要低一半的凡夫俗子来说,我的大脑能够比较愉快地处理一本纯是英文或者纯是数学的书,不过如果对于一本纯英文的纯数学教材,这种双倍的快乐通常是要导致Stack Overflow的。好在这本书机工社刚出了中文版,华章教育系列,名字就叫《机器学习基础》。书皮很好认,右下角就是英文原版的封面。

中文版的读书笔记有许多好处,最大的好处之一就是不用纠结该显得专业直接用英文,还是为了好读先译成中文,更别说中文可能又有几种不同的译法。下面用到的术语全部取自这本中文版的《机器学习基础》,它译成啥就啥。

2.读的顺序

书拿到手了,该按什么顺序读呢?

想必许多人不觉得这是个问题,大概还是延续上学时的习惯,读书都是按顺序从头读到尾,然后习惯性地直接跳过前言,和忽略掉附录。

我倒是觉得,别的题材不好说,读机器学习的书不必拘泥于此,我更愿意像吃自助餐一样按需阅读。

那就说说菜单上都有哪些美食吧。《机器学习基础》书不厚,正文有14章,也就244页,外加1节前言和5节附录。

大家似然都不爱读前言,就像买新手机也没谁会读说明书。其实许多作者,譬如说我,会选择把一些与写作有关,不过与写作内容无关的八卦放在前言。首先肯定得告诉你为什么要写这本书,如果你是个讲究的读者,肯定是在正式开读之前就想知道,自己读书的目的和作者写书的动机是不是完美契合,简单来说就是“这本书是不是我的菜”。一般人会告诉你,书适不适合你,得读过才知道,这样成本就很高了。那有没有没读就知道作者写啥的方法呢?

有,先读前言。

接下来我建议别着急读正文,把书翻个底朝天,读读附录。机器学习的知识是一套枝叶繁茂互相依存的知识体系,而任何一本教材如果没打算写成规模大到吓死人的百科全书,那就都必须有所取舍,只能根据偏重在体系中硬生生割取某些部分介绍。这就免不了导致本书主要知识要和它们的前置知识被人为割裂,而读者如果不掌握这些前置知识,肯定又会读得磕磕绊绊,总觉得缺了点什么。

怎么办呢?现在机器学习教材通行的办法,就是把一些必须的前置知识放在附录里,这样既有偏重,又兼顾了知识的完整,算是取得相对平衡的不错方法。

最后当然就是读正文了。不过,正文14章,是不是必须得按第1章一直到第14章的顺序读下去呢?不是,同样可以按需阅读,根据自己的偏好和学习目标,先读最关心的那些章节。后面具体介绍。

3.前言读什么

好了,如果你终于久违地翻开了书的前言,你一定很想知道,《机器学习基础》的前言也就薄薄的一页纸,有啥值得读的呢?

三样东西。

第一样,书的定位。前言说,这是莫里教授连续7年开设机器学习基础这门研究生课程,本书材料大多从中而来。显然,这本书是一本正儿八经的教材,而且知识会往深了去。

第二样,涵盖范围。这部分前言写得含蓄了点,只说本书旨在介绍机器学习的理论和概念,涵盖许多重要且复杂的主题,并都提供了相应的简洁证明。不过比较可惜的是,前言说“因目前缺乏针对一些方法的坚实的理论保证”,未能覆盖图模型和神经网络两个重要主题,我还发现决策树和KNN这些常用算法书里也没收,大概作者更看重模型背后的可解释和可证明吧。

第三样,结构安排。这是重点,一本书按什么顺序读,能不能跳读,怎样跳读,靠的不是任性,而是书的结构安排。前言说,《机器学习基础》前三章都是在构建理论基础,供后续使用,第5章又补充了一些,而其它章节自成体系。这就很清楚地介绍了书的结构,看完了理论基础,就能有选择地阅读自成体系的章节。我们后面再说。

另外,前言大概也知道大家都有忽略附录的习惯,特别说了阅读本书之前,需要了解线性代数、概率论和算法分析的基本概念,也就是需要有前置知识。不过,如果你不太了解又懒得退货,前言也说了,附录提供有对这些前置知识的辅导。这也就是为什么我建议先读附录的原因。

4.附录读什么

那么,现在从附录这个生来就注定被人遗忘的角落说起吧。

《机器学习基础》的附录有5节,第5节也就是附录E是符号表。机器学习数学方向的教材一般都附符号表,因为数学除了数就都是符号,不过和很多人的第一感觉不同,同一种数学符号在记法上其实并不十分统一,这种符号记法的不统一情况仔细读小学和中学的数学课本就能找到端倪,而符号表的作用就告诉你这本书里用到的数学概念都用什么符号表示。

符号表和书的标价一样不能缺少,不过用处也就仅此而已,所以相当于只有4节附录,分别是:附录A线性代数、附录B凸优化、附录C概率论和附录D集中不等式。

我反复说,机器学习是用到数学的,不过只用到其中的一点点,就两条分支,分别是线性代数和概率论,这也就是为什么有人总说学机器学习之前得先学线性代数和概率论。不过,哪怕就这两条分支,机器学习也只用了一点点,所以我说有必要学但没必要都学,这一点点知识翻翻附录A和附录C就足够了。

那凸优化呢?可以选学。机器学习里需要通过一些迭代的方法取得变量的最大值或最小值,不妨简单理解成编程里的max和min函数,而具体用的方法就叫凸优化。如果对max和min函数的具体实现感兴趣,可以读读附录B。

最后还剩下附录D,也就是集中不等式。等等,不等式?机器学习怎么突然跑出个不等式来了?这应该是附录中最让人摸不着头脑、不知道用来干嘛的部分。真相其实很简单,这就是个工具箱,装的都是证明用到的榔头和起子。不等式往往和界有关,简单点来说,我可能不知道这个变量具体取什么值,但我能够证明它的取值范围,譬如一定大于某个值,或者一定小于某个值。当然,这只是最简化的介绍,具体情况肯定复杂一些,正文里会大量遇见这类证明。

下回再聊。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 睡前机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档