如何系统的学习 R 语言数据挖掘

“虽然是本科毕业,但是在看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看 svm 的数学证明,EM算法,凸优化… 感觉知识跳跃比较大, 是我微积分学的不好还是中间有什么好的教材补充一下,数据挖掘系统的学习过程是怎么样的,应该看那些书(中文最好)?“

——以上是一位咨询的学员像我们提出的疑问。和这位同学相似,很多同学在入门数据挖掘领域遭到了极大的阻力,也丧失了继续学习的兴趣。那么,正确入门数据挖掘领域的姿势是什么呢?

这是一个不太好回答的问题,管中窥豹,建议大家看一下以下的一些见解。

一、 在学习数据挖掘之前你需要明了的几点:

1. 数据挖掘目前在中国的尚未流行开,犹如屠龙之技;

2. 据挖掘本身融合了统计学、数据库、机器学习、模式识别、知识发现等学科,并不是新的技术。

3. 数据挖掘之所以能够应用不是因为算法,算法是以前就有的。数据挖掘应用的原因是大数据和云计算。比如阿法狗的后台有上千台计算机同时运行神经网络算法;

4. 数据初期的准备工作,也称Data Warehousing。通常占整个数据挖掘项目工作量的70%左右。在前期你需要做大量的数据清洗和字段扩充的工作。数据挖掘和报告展现只占30%左右;

5. 数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)

二、目前国内的数据挖掘人员工作领域大致可分为三类。

1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告;

2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析;

3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。

三、你自己的定位与学习。

基于以上一点的介绍,你大概可以明确你需要努力的方向。如果你不是致力于科研方向,那么你需要掌握如下的技能:

1. 需要理解主流机器学习算法的原理和应用。按照需要解决的问题,主要分为三大类,见下图:

2. 需要熟悉至少一门编程语言。如R,Python,SPSS Modeler,SAS,WEKA等。关于软件,有三个原则:只要能达到目标的软件就是好软件;你研究的领域啥软件好用就用啥软件;不要妄想用一个软件解决所有问题。

3. 需要理解数据库基本原理,能够熟练操作至少一种数据库,如Mysql,OracelDB2等。

4. 熟悉数据挖掘常见的运用场景。如客户生命周期管理、客户画像和客户分群、客户价值预测模型构建、推荐系统设计等。这些需要依托于不同行业。下图位CRM管理运用场景示例:

5. 经典图书推荐:《数据挖掘:概念与技术》、《数据挖掘导论》、《机器学习实战》、《数据库系统概论》、《R语言实战》

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2017-05-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【AI比人更擅长妥协】Nature子刊全新机器学习算法探讨人机合作

编辑:闻菲、张乾 【新智元导读】BYU计算机科学教授Jacob Crandall和Michael Goodrich以及麻省理工学院和其他大学的同事创造了一种新算...

3476
来自专栏CDA数据分析师

人工智能与机器学习:两者有何不同?

在过去几年,人工智能和机器学习频繁出现在技术新闻和各种网站上。两者常常被用作同义词,但许多专家认为它们存在微妙且重大的区别。 当然,专家们自己有时对于那些区别到...

2297
来自专栏PPV课数据科学社区

编译 | 机器学习的趋势和人工智能的未来

数据飞轮,算法经济,和智能云托管的融合意味着每家公司现在可以是一个数据公司,每家公司现在可以访问算法智能,并且每一个应用程序可以是一个智能应用。 ? 每家公司现...

4549
来自专栏美团技术团队

【沙龙干货】主题一:外卖O2O的用户画像实践

分享内容 ---- 这个演讲的内容大概包括四个部分:第一个是外卖业务对营销的要求,我会从比较概括层面讲一下针对外卖业务我们要做什么;第二个是美团用户画像,介绍一...

4046
来自专栏机器学习算法与Python学习

视频 | Yann LeCun:人工智能下一站——无监督学习

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 ?

3116
来自专栏数据的力量

【05期】我的数据心经:从数据到智能

1715
来自专栏灯塔大数据

TA是什么“鬼”?一个优秀数据科学家的主要构成特点

? 根据三位作者的咨询和研究经验,以及与许多大数据和分析主题的公司合作,了解一个良好的数据科学家具有哪些主要特征。 大数据分析已经满天都是,IBM项目,每天...

3009
来自专栏腾讯研究院的专栏

大数据带来的四种思维

近年来大数据技术的快速发展深刻改变了我们的生活、工作和思维方式。大数据研究专家舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生如下三个变化:第一,人们处...

2159
来自专栏ATYUN订阅号

语音识别技术里程碑:微软识别错误率降至5.1%

8月21日,微软宣布该公司的语音识别系统的错误率已经降至5.1%,这是目前为止错误率最低的,已经超过了去年由微软AI研究团队所创造的5.9%的成绩。 这两项研究...

3916
来自专栏企鹅号快讯

AI与机器人有关部分的科技研究领域是什么?

理解自然语言 自然语言处理是人工智能早期研究领域之一。已经编写出能够从内部数据可问答用英语提出问题的程序,这些程序通过阅读文本材料和建立内部数据库,能够把句子从...

3865

扫码关注云+社区

领取腾讯云代金券