重磅！李航《统计学习方法》第二版上线，6 年耕耘增加无监督学习

磐创AI

发布于 2019-05-15 11:28:35

1.4K0

发布于 2019-05-15 11:28:35

转载自：机器之心，未经允许不得二次转载

导语：统计学习即机器学习，是计算机及其应用领域的一门重要学科。此前，李航老师完成的《统计学习方法》是了解机器学习最好的教材之一，该书从 2005 年开始写作一直到 2012 年完成，包含了众多主要的监督学习算法与模型。最近，《统计学习方法》第二版正式发布，通过 6 年时间的努力，在第一版的基础上又增加了无监督学习的主要算法与模型。

李航博士告诉机器之心，《统计学习方法》第二版新加了无监督学习方面的内容，并对第一版的监督学习方法做了一些修改。总体而言，第二版可以分为监督学习和无监督学习两篇。从这两大块出发，基本上传统机器学习的主要概念就能一步步掌握了。

具体而言，第一篇介绍了感知机、朴素贝叶斯法、决策树、支持向量机、提升方法、EM 算法、隐马尔可夫模型和条件随机场等算法，它们都是非常经典的监督学习方法。第二篇主要讨论了聚类方法、奇异值分解、主成分分析、潜在语义分析、马尔可夫链蒙特卡罗法和潜在狄利克雷分配等算法，它们都是非常经典的无监督学习方法。

除有关统计学习、监督学习和无监督学习的概论和总结的四章外，每章介绍一种方法。叙述力求从具体问题或实例入手，由浅入深，阐明思路，给出必要的数学推导，便于读者掌握统计学习方法的实质，学会运用。

为满足读者进一步学习的需要，书中还介绍了一些相关研究，给出了少量习题，列出了主要参考文献。

站在经典之上的《统计学习方法》

在第一版中，很多同学会发现整本书的数学气息非常浓厚，大部分算法都给出了推导过程。这些算法都是非常基础与经典的机器学习方法，理解它们需要有比较坚实的数学基础。但是在深度学习时代，这些经典算法被大家关注得比较少，反观常见的深度学习方法与技巧，却不一定有传统方法那样的理论。

在深度学习时代，我们更多的是根据经验、实验和「启发式」方法理解模型。那么，站在经典机器学习之上的《统计学习方法》，又能怎样帮助我们学习前沿的算法与技巧呢？

李航老师表示他会继续写深度学习、强化学习相关的内容，包括前馈神经网络和卷积、循环神经网络等，他也会保留前面几版的数学风格。但是对于传统机器学习与深度学习之间的关系，李航老师表示：「它们两者在技术上是一脉相承的，中间并不可以割裂。」理解经典 ML 的数学原理，也是为前沿 DL 提供新的背景知识或洞见。

李航老师说：「在我面试员工的时候，也会发现这样的问题，大家对深度学习了解得很多，但对传统机器学习了解得非常少。这种现象并不好，例如我们在 TensorFlow 上实现某个模型，然后就直接跑实验，这样对很多基本概念了解得都不够。理想情况下，我们应该更全面地理解机器学习的概念与理论，再做深度学习实践，也就是说对传统 ML 的理解有助于更好地跑 DL 模型。」

当然每一个研究者或开发者的精力都是有限的，因此李航老师表示：「这本书的每一章都是相对比较独立的，大家可以有选择地阅读相关章节。在以后加入深度学习与强化学习后，不同章节也应该是相互独立的。当然还是把这些章节联系起来一起看，这样就能掌握整个脉络和发展。」

此外，尽管深度学习在众多任务上都有极好的效果，但也不能说传统机器学习就没什么用了。李航老师说：「例如在小数据集或简单问题上，SVM 或 GBDT 这些方法在实践中用得还是挺多的，我们对这些基础方法最好有一个深入的理解。」

正确理解《统计学习方法》的定位

在第二版的序言中，上面描述到「本书是统计机器学习及相关课程的教学参考书，适用于高等院校文本数据挖掘、信息检索及自然语言处理等的大学生、研究生，也可供从事计算机应用相关的研发人员参考。」

对于书本的整体定位，李航老师说：「这本书的内容本身是最基础的，也就是机器学习领域大家都应该掌握的东西，从这种意义上来说确实是一本入门书籍。但是我并没有从入门的角度写这本书，而是更多地把一些最基本的概念，提纲挈领地整理出来。你也可以认为是从教材的角度来写这些内容，因此这本书适合多次阅读，需要经常查看，而不是看一遍就了事。」

很多读者也会反馈这本书的阅读体验，有的认为数学太多、有的认为数学太少或不够详细等等。李航老师认为，如果没有足够的相关数学知识，那么看这本书会比较吃力。他说：「听到了一些概念，但又不了解细节，想要更详细地从头理解，那么这个时候阅读这本书是合适的。」

这本书比较适合有一定基础的读者，不论是 ML 基础还是数学基础。它不太适合特别入门的初学者，也不太适合概率论、统计学都不太了解的入门者，但这些基础知识可以通过其它课程或教材快速补全，再来学习《统计学习方法》就非常合适了。当然，读者也可以一边阅读《统计学习方法》，一边补全基础知识，这样学习可能效率更高。

一步步走来的《统计学习方法》

其实《统计学习方法》第一版内容主要涵盖的是监督学习，为大家提供了极为精炼的介绍。当时，李航博士完成这本书花费了 7 年时间，涵盖了工业上最常见与最实用的各种算法。

如今又经过 6 年写作，第二版上线，增加了经典无监督学习的相关内容。李航博士表示这其中有读者的期待，他也希望这本新书能为大家提供更多的帮助。

而关于如今比较热门的深度学习、强化学习等内容，李航博士可能会在未来的三至四年内加进来，发布新的版本。

「其实跟我当初设想的也不太一样，也是阴差阳错走到这一步。我本来没计划写这么多，就是有读者的期待，还有这本书对大家有一定的帮助，所以下决心之后把深度学习和强化学习也再加上。因为我都是业余时间写的，所以花的时间比较多。」

总体而言，李航老师希望在未来的时间内把深度学习和强化学习写完，希望国内读者在了解机器学习基本方法时，有一本比较完善的参考书籍。李航说：「我知道这本书在工业界参考地比较多，因为我一直在业界工作，站在应用的角度可以了解哪些方法是重要的。」

所以，李航老师最后表示：「我希望《统计学习方法》不仅仅是教材，它还能为业界的工程师提供一些有用的帮助。」

《统计学习方法》第二版主要分为两部分，目前在京东和淘宝等平台上已经可以预订了。第一部分的监督学习在内容主题上和第一版基本一致，这里就只展示了大章节标题。第二部分的无监督学习是全新的内容，因此这里展示了更多的细节。

第一篇监督学习