机器学习入门书籍简介

缘起

在AIclub看到一篇机器学习入门的文章,回想自己磕磕碰碰走过的弯路,颇有感触,因此对自己从懵懂到稍稍入门过程中看过的教程做一个简单的介绍,希望帮到后来人;

脉络

机器学习这个词起源于20世纪50年代的Authur Samuel,是人工智能研究到一定阶段的必然产物;机器学习的定义比较多,笔者比较认同的是Mitchell给出的定义:如果一个程序P在一个数据集D上通过学习能提升P的性能(performance),那么认为这个程序是一个能够学习的程序;

这里的performance不是通常所说的后台同学理解的性能(和cpu、吞吐率有关)的意思,而是指一个模型或者算法在一个问题上的正确率、召回率等指标;

从发展历程来看,经历了以逻辑规则为代表的推理学习阶段、以决策树位代表的符号主义学习、以神经网络为代表连接主义学习阶段以及以SVM等技术为代表的统计学习阶段;至于2010年前后兴起的deep learning,则是神经网络因为硬件条件、训练算法的提升的有一次走红,所以不单独介绍;

从实际的业务来看,机器学习算法更多是以一种数据处理、数据分析方案的角色出现,这个阶段统计学习相关的算法是绝对的主流;本文也是从这个角度出发来给想入门而不得的同学提供一个入门的阅读list;

推介

限定在统计学习这个范围后,机器学习所涉及到的只是主要包括:数学+算法+编程;其中数学又可分为分析+概率;汇总起来,数学分析+概率统计+算法+编程大概是机器学习入门的基本要求了,下面从这三个角度给出笔者看过觉得比较优质的一些书籍供大家参考

1)分析

数学要用到的主要知识是数学分析和凸优化的一部分理论;

数学分析:首推北大张筑生版的数学分析新讲一套三册;全面深入细致讲解了数学分析的方方面面,如果觉得实数系构造这一块不够严谨,可以参考陶哲轩的实分析前面一两章;

如果不求严谨,无力啃下完整的数学分析又想学习算法的同学,则推荐浙大版高等数学;再次一点可以看华中科技大出版的一元分析学和多元分析学这两本书;名字虽然叫分析学,实际比浙大高数还要简单一些;

优化理论:满分推荐《最优化导论》这本书,作者是Edwin.K.P.Chong,亚马逊有中译本;这本书是我苦寻很久才找到的一本,填补了从高数到学习算法之间那一环的不二法本;第二本推荐是凸优化,不过目前只有英文版,门槛稍高,但是内容清晰简练,非常值得一读;

线性代数:推荐Gilbert Strang的Introduction to linear algebra;不解释,网易上有对应的视频,满分推荐

2)概率

概率论:我对这一块一直不太看得上,所以书比较杂,这里推荐陈希孺的教材吧;

贝叶斯:当之无愧的经典是james O Berger的《统计决策理论与贝叶斯分析》,微盘上有中文版的pdf;国内比较好的是茆诗松写的《贝叶斯统计》这本书;这里有个奇怪的现象,似乎八十年代贝叶斯在国内火过一段时间,然后就沉寂下去了,导致这块我们实际理论知之甚少,如果不是研究lda的时候反复查找才找到这两本书,估计我也是傻乎乎的停留在贝叶斯公式的基础上了;

3)算法

这一块书籍特别多,重点推荐两部我深度看过的和两部还没看但是绝对是经典的书籍

统计学习方法:李航博士写的,李航是华为诺亚方舟的负责人,在统计学习上的造诣非同一般,这本书以极短的篇幅,系统介绍了几乎所有常见算法的数学原理和证明,可以作为常备手册,反复阅读;配合之前推荐的最优化导论,简直天生绝配;

机器学习:周志华版本;Mitchell版本内容稍稍陈旧,周志华版本如果打一个比方的话,就是陈近南交给韦小宝的那本绝世秘籍目录一样;绝世秘籍有很多,但是目录只有薄薄的一本;这本书深入浅出的勾勒了机器学习的大体面貌,并不晦涩艰深,但是对一些基础东西讲的很透,非常适合入门学习;

我还没来得读的有两本:一本是PRML,中文名叫模式识别与机器学习,没有官方的中文版貌似,网上有非官方翻译的版本;另一本是ESL,统计学习基础;贴出来供大家参考;

结语

机器学习的坑很大,里面涉及的内容也非常多,尤其与大数据结合在一起,有一系列的框架、基础设施有待研究;本文只是一个基础入门的介绍,有进一步需求的可以单独聊,或者后面再写一个进阶版吧;

能够给到的一点个人感受就是机器学习不嫌你懂得数学多;有精力、有实力的同学可以在分析的基础上继续往上攀爬:实分析、泛函分析、微分几何、拓扑。。。总有机会可以用到的,否则看到类似再生核希尔伯特空间的高逼格词汇还是和我一样干瞪眼:)

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

干货 | 自然语言处理入门资料推荐

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 源 | AI深入浅出 最近几个月小编...

4605
来自专栏机器学习算法全栈工程师

机器学习模型,能分清川菜和湘菜吗?

一个地区的文化和当地的特色食物总是分不开关系,可以说小到村庄,大到国家,每个地方都有自己的“味道”。

773
来自专栏AI研习社

CS224n 更新 | 第十二讲 - 语音处理的端对端模型

自然语言处理(NLP)是信息时代最重要的技术之一。理解复杂的语言话语也是人工智能的重要组成部分。 NLP 的应用无处不在,因为人与人之间大部分的沟通都需要语言:...

852
来自专栏AI科技评论

动态 | 谷歌让机器更懂语言的博大精深,发布最大消歧语料库

理解语言的核心自然是了解词语在文本中的不同含义。AI科技评论先说个中文笑话先: 领导:「你这是什么意思?」 下属:「没什么意思,意思意思。」 领导:「你这就不...

3689
来自专栏AI科技评论

EMNLP 2018 上 FB 、谷歌继续并肩「刷榜」,瓜分最佳长论文和十分之一接收论文

AI 科技评论按,自然语言处理顶会 EMNLP 2018 已经于 10 月 31 日开始了 Tutorial,正会将从 11 月 2 日开始。2017 年中,词...

812
来自专栏机器之心

从冷战到深度学习:一篇图文并茂的机器翻译史

选自Vas3k.com 作者:Ilya Pestov 英语版译者:Vasily Zubarev 中文版译者:Panda 实现高质量机器翻译的梦想已经存在了很多年...

2816
来自专栏大数据挖掘DT机器学习

R语言学习路线和常用数据挖掘包

对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到QQ群、论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的学习方...

3424
来自专栏新智元

【资源】机器学习和神经网络实践:书籍及博客推介

【新智元导读】前几天我们向大家推荐了自学成为 Data Scientist 在线课程系列,很多人纷纷收藏和分享。今天新智元再针对数学,为大家介绍几本书和相关资料...

3438
来自专栏专知

Github 上 Star 过千的 PyTorch NLP 相关项目

【导读】Github 上有许多成熟的 PyTorch NLP 代码和模型, 可以直接用于科研和工程中。本文介绍其中一下 Star 过千的时下热点项目。

1042
来自专栏腾讯技术工程官方号的专栏

图像内容的「深度」理解及其应用

本文作者:朱晓龙博士,2015 年毕业于香港大学,主攻计算机视觉和机器学习方向,涉及物体检测,位姿估计,人脸特征点定位,3D 视觉等课题。本科期间参与北京大学智...

2985

扫码关注云+社区