【陆勤阅读】浅析:数据挖掘从入门到进阶,要看什么书?

做数据挖掘也有些年头了,写这篇文一方面是让我写篇文,朋友作为数据挖掘方面的参考,另一方面也是有抛砖引玉之意,希望能够和一些大牛交流,相互促进,让大家见笑了。

Q&A:

Q:学习,最近在看集体智慧编程,楼主可否推荐下数学基础的书?

A:我数学本身也不好 自己也在偷偷补 因为看的不多也不能给出个提纲式的建议 只能给您列下我近期看过和在看的觉得不错的书 您看做参考吧

1.矩阵方面 Kaare Brandt Petersen的《The Matrix Cookbook》 网易公开课中的《麻省理工公开课:线性代数》

2.概率论与数理统计方面 JohnA.Rice 的《数理统计与数据分析》《统计建模与R软件》

3.微积分方面 网易公开课中的《麻省理工学院公开课:单变量微积分》

其实您只要有了

1.概率论与数理统计以及其他统计学基础

2.扎实的线性代数功底

3.微积分(如果能学习下实变函数和泛函分析就更好了)

这几方面的基础 基本上机器学习的大部分算法您都具有了其数学基础;

如果您觉得我说的太泛 可以先看看《模式分类》这本书的附录中的数学基础 这样您就大体有个印象了

入门:

数据挖掘入门的书籍,中文的大体有这些:

Jiawei Han的《数据挖掘概念与技术》

Ian H. Witten / Eibe Frank的《数据挖掘 实用机器学习技术》

Tom Mitchell的《机器学习》

TOBY SEGARAN的《集体智慧编程》

Anand Rajaraman的《大数据》

Pang-Ning Tan的《数据挖掘导论》

Matthew A. Russell的《社交网站的数据挖掘与分析》

很多人的第一本数据挖掘书都是Jiawei Han的《数据挖掘概念与技术》,这本书也是我们组老板推荐的入门书(我个人觉得他之所以推荐是因为Han是他的老师)。其实我个人来说并不是很推荐把这本书。这本书什么都讲了,甚至很多书少有涉及的一些点比如OLAP的方面都有涉猎。但是其实这本书对于初学者不是那么友好的,给人一种教科书的感觉,如果你有大毅力读完这本书,也只能获得一些零碎的概念的认识,很难上手实际的项目。

我个人推荐的入门书是这两本:TOBY SEGARAN的《集体智慧编程》和Ian H. Witten / Eibe Frank的《数据挖掘 实用机器学习技术》。

《集体智慧编程》很适合希望了解数据挖掘技术的程序员,这本书讲述了数据挖掘里面的很多实用的算法,而且最重要的是其讲述的方式不是像Han那种大牛掉书袋的讲法,而是从实际的例子入手,辅以python的代码,让你很快的就能理解到这种算法能够应用在哪个实际问题上,并且还能自己上手写写代码。唯一的缺点是不够深入,基本没有数学推导,而且不够全面,内容不够翔实。不过作为一本入门书这些缺点反而是帮助理解和入门的优点。

推荐的另一本《数据挖掘 实用机器学习技术》则相对上一本书要稍微难一点,不过在容易理解的程度上依然甩Han老师的书几条街,其作者就是著名的Weka的编写者。整本书的思想脉络也是尽可能的由易到难,从简单的模型入手扩展到现实生活中实际的算法问题,最难能可贵的是书的最后还稍微讲了下如何使用weka,这样大家就能在学习算法之余能够用weka做做小的实验,有直观的认识。

看完上述两本书后,我觉得大体数据挖掘就算有个初步的了解了。往后再怎么继续入门,就看个人需求了。

如果是只是想要稍微了解下相关的技术,或者作为业余爱好,则可随便再看看Anand Rajaraman的《大数据》以及Matthew A. Russell的《社交网站的数据挖掘与分析》。前者是斯坦福的”Web挖掘”这门课程的材料基础上总结而成。选取了很多数据挖掘里的小点作为展开的,不够系统,但讲的挺好,所以适合有个初步的了解后再看。后者则亦是如此,要注意的是里面很多api因为GFS的缘故不能直接实验,也是个遗憾

如果是继续相关的研究学习,我认为则还需要先过一遍Tom Mitchell的《机器学习》。这本书可以看做是对于十多年前的机器学习的一个综述,作者简单明了的讲述了很多流行的算法(十年前的),并且对于各个算法的适用点和特点都有详细的解说,轻快地在一本薄薄的小书里给了大家一个机器学习之旅。

进阶:

进阶这个话题就难说了,毕竟大家对于进阶的理解各有不同,是个仁者见仁的问题。就我个人来说,则建议如下展开:

视频学习方面:

可以看看斯坦福的《机器学习》这门课程的视频,最近听说网易公开课已经全部翻译了,而且给出了双语字幕,更加容易学习了^_^

书籍学习方面:

我个人推荐的是这样:可以先看看李航的《统计学习方法》,这本书着重于数学推导,能让我们很快的对于一些算法的理解更加深入。有了上面这本书的基础,就可以开始啃一些经典名著了。

这些名著看的顺序可以不分先后,也可以同时学习:

Richard O. Duda的《模式分类》这本书是力荐,很多高校的数据挖掘导论课程的教科书便是这本(也是我的数据挖掘入门书,很有感情的)。如果你不通读这本书,你会发现在你研究很多问题的时候,甚至一些相对简单的问题(比如贝叶斯在高斯假设下为什么退化成线性分类器)都要再重新回头读这本书。

Christopher M. Bishop的《Pattern Recognition And Machine Learning》这本书也是经典巨著,整本书写的非常清爽。

《The Elements of Statistical Learning》这本书豆友有句很好的吐槽“机器学习 — 从入门到精通”可以作为这本书的副标题。可以看出这本书对于机器学习进阶的重要性。值得一说的是这本书虽然有中文版,但是翻译之烂也甚是有名,听说是学体育的翻译的。

Hoppner, Frank的《Guide to Intelligent Data Analysis》这本书相对于上面基本经典巨著并不出名,但是写的甚好,是knime官网上推荐的,标榜的是解决实际生活中的数据挖掘问题,讲述了CRISP-DM标准化流程,每章后面给出了R和knime的应用例子。

项目方面:

事实上,我觉得从进阶起就应该上手一些简单的项目了。如果不实践只是看书和研究算法,我觉得是无法真正理解数据挖掘的精髓所在的。打个简单的比方,就算你看完了C++ Primer、effective C++等等书籍,如果自己不写C++,那么自己也就会停留在hello world的级别。实践出真知非常切合数据挖掘这门学科,实际上手项目后才会发现什么叫”80%的准备,20%的建模”,real world的问题我认为并不是仅仅靠modeling就能很好的解决的。详细的可以看看《Guide to Intelligent Data Analysis》就能略知一二。如果上手做推荐或者一些简单的项目,也可以考虑用用mahout,推荐的入门手册是《mahout in action》。项目问题说来话长,有时间会以CRISP流程为引单独作文,这里也就不详谈了。

软件方面:

我常用而且推荐的软件有如下,这里只是简单的列出,以后有时间再详细分析和写出入门:

Weka Java的软件,可以集成到自己的项目中。

Orange 一个用python写的数据挖掘开源软件,界面做的很漂亮,可以做图形化实验,也可以用python调用编程。

Knime 和Orange类似,特点是可以集成weka和R等开源软件。

再往后:

再往后的其实就是我就是觉得是学数学了,然后就是深入读一些你感兴趣的topic的书籍和paper,接项目,做项目了。发展有数据分析师或者去专门的企业做数据研究员,当然混学术界的我就不清楚了。

初略写完发现成一篇长文了,最近也是在做一个用眼底照片预测stroke的项目,比较忙,等闲下来以后也会写些算法或者软件或者实际项目的心得的文。当然也只是我个人粗浅的想法,也希望能和大家有所交流,相互促进^_^

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2015-07-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

期货大数据:从商品间相关系数挖掘市场宏观性趋势

25890
来自专栏飞总聊IT

智能的本质(二)---图灵机,电脑,以及人脑

讨论智能的本质,图灵机是无法回避的问题。图灵在很早的时候就旗帜鲜明的表示了图灵机的模型就是智能的本质,而人脑无非只是这种模型或者类似这种模型的一个具体实现而已。...

35370
来自专栏量子位

一个八卦的AI,嗅到了你和TA之间基情满满

10220
来自专栏CDA数据分析师

R语言学习由浅入深路线图

对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的学习方式,最好的...

20350
来自专栏腾讯研究院的专栏

何为实在

image.png 推荐语: 霍金的《大设计》(The Grand Design)与其说是本科普读物,莫如说是相关“实在与终极”的著作。过去几千年间,...

26050
来自专栏数据科学与人工智能

【统计学习】写给在学习统计的学弟学妹

在其他论坛看到一篇写如何学统计的文章,作者侃侃而谈,语言也不失幽默,更重要的是,平实的表述中却把很多读统计的童鞋共有的感受和疑问一同归纳总结了出来。楼主看过之后...

21890
来自专栏机器之心

观点 | Yoav与LeCun深度学习之争后续:谷歌VP Fernando Pereira谈NLP研究「三幕剧」

选自EarningMyTurns 机器之心编译 参与:机器之心编辑部 近日,著名学者 Yoav Goldberg 发布的一篇批评蒙特利尔大学新论文《Advers...

21460
来自专栏量子位

给无人车加个透视眼 | 斯坦福SCIL实验室最新Nature文章

拐角路口没有装凸面反光镜的话。 ? △ 别找凸面反光镜了……就是没有 老司机开车都得减速慢下来。 谁知道拐弯看不见的地方,会不会有人或小动物突然窜出来。 就更别...

27050
来自专栏数据科学与人工智能

【应用】信用评分卡 : 变量选择

下面的故事可以追溯到我开始从物理到商业的转变。我在周五晚上的派对上遇到了这位投资银行家。喝完几品脱啤酒后,他的情绪变得有些阴沉,他告诉我他是如何讨厌他的工作。然...

13350
来自专栏华章科技

豆瓣还是朋友圈:大数据、新方法和日常问

问题来了,怎么才能设计一种实证策略,把这两种效应区分开呢?这是Gilchrist和Sands在Journal of Political Economy即将刊出的...

9230

扫码关注云+社区

领取腾讯云代金券