【学习】如何进行大数据的入门级学习?

大数据是眼下非常时髦的技术名词,自然也催生出了一些与大数据相关的职业,通过对数据的分析挖掘来影响企业的商业决策。

  这群人被称做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人。而数据科学家目前也已经在美国传统的电信、零售、金融、制造、物流、医疗、教育等行业里开始创造价值。

  不过在国内,大数据的应用才处于萌芽状态,人才市场还不太成熟,每家公司对大数据工作的要求不尽相同:有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此,很多公司会针对自己的业务类型和团队分工,给这群与大数据打交道的人一些新的头衔和定义:数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title,我们将其统称为“大数据工程师”。

  对于一些大公司来说,拥有硕博学历的人是比较好的选择,不过阿里巴巴集团研究员薛贵荣强调,学历并不是最主要的因素,能有大规模处理数据的经验并且有喜欢在数据海洋中寻宝的好奇心会更适合这个工作。

  那么如何进行大数据的入门级学习呢?首先我们需要了解大数据工程师是做什么的以及需要具备什么样的能力。

A 大数据工程师是做什么的?

  用阿里巴巴集团研究员薛贵荣的话来说,大数据工程师就是一群“玩数据”的人,玩出数据的商业价值,让数据变成生产力。大数据和传统数据的最大区别在于,它是在线的、实时的,规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。

  分析历史、预测未来、优化选择,这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策。

 B 需要具备的能力

数学及统计学相关的背景

  就采访过的BAT三家互联网大公司来说,对于大数据工程师的要求都是希望有统计学和数学背景的硕士或博士学历。缺乏理论背景的数据工作者,更容易进入一个技能上的危险区域(DangerZone)—一堆数字,按照不同的数据模型和算法总能捯饬出一些结果来,但如果你不知道那代表什么,就不是真正有意义的结果,并且那样的结果还容易误导你。

计算机编码能力

实际开发能力和大规模的数据处理能力是作为大数据工程师的必备要素。举例来说,现在人们在社交网络上所产生的许多记录都是非结构化的数据,如何从这些毫无头绪的文字、语音、图像甚至视频中攫取有意义的信息就需要大数据工程师亲自挖掘。即使在某些团队中,大数据工程师的职责以商业分析为主,但也要熟悉计算机处理大数据的方式。

C如何进行入门级学习

  虽然数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法都可以来对付数据。但从狭义上来看,数据科学就是解决三个问题:

  1. data pre-processing;

  2. data interpretation;

  3.data modeling and analysis.

  这也就是做数据工作的三个大步骤:

  1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;

  2、数据“长什么样”,有什么特点和规律;

  3、按照需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。

这三个步骤未必严谨,每个大步骤下面可能根据问题的不同也会有不同的小步骤,但按照这个大思路走,数据一般不会做跑偏。

D有哪些适合初学者的书籍

  这样看来,数据科学其实就是门复合型的技术,既然是技术就从编程语言谈起,为了简练,只说说R和Python。但既然是推荐数据科学方面的书,就不提R/Python编程基础之类的书了,直接说跟数据科学相关的。

R programming

  如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本:

R in action:其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭。但如果配合上一些辅助材料,如官方发布的R basics,stackoverflow上有tag-R的问题集(Newest ‘r’ Questions),遇到复杂的问题可在上面搜索,总会找到解决方案的。这样一来,用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松,紧贴实战。

Data analysis and graphics with R:使用R语言做数据分析的入门书。这本书的特点也是紧贴实战,没有过多地讲解统计学理论,所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强,也就是说哪怕你手头没电脑写不了代码,有事没事拿出这本书翻一翻,也能读得进去。

  但如果你先用R来从事实实在在的数据工作,那么上面两本恐怕不够,还需要这些:

Modern applied statistics with S:这本书里统计学的理论就讲得比较多了,好处就是你可以用一本书既复习了统计学,又学了R语言。(S/Splus和R的关系就类似于Unix和Linux,所以用S教程学习R,一点问题都没有)

Data manipulation with R:这本书实务性很强,它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样,这本书也有丰富的真实数据和模拟数据供你练习。对于真正从事数据处理工作的人来说,这本书的内容非常重要,因为对于任何研究,一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则,你的研究总是要等待你的数据。

R Graphics Cookbook:想用R做可视化,就用这本书。150多个recipes,足以应付绝大多数类型的数据。

 An introduction to statistical learning with application in R:这本书算是著名的the element of statistical learning的姊妹篇,后者更注重统计(机器)学习的模型和算法,而前者所涉及的模型和算法原没有后者全面或深入,但却是用R来学习和应用机器学习的很好的入口。

A handbook of statistical analysis using R:这本书内容非常扎实,很多统计学的学生就是用这本书来学习用R来进行统计建模的。

Python

  Think Python,Think Stats,Think Bayes:这是Allen B. Downey写的著名的Think X series三大卷。其实是三本精致的小册子,如果想快速地掌握Python在统计方面的操作,好好阅读这三本书,认真做习题,答案链接在书里有。这三本书学通了,就可以上手用Python进行基本的统计建模了。

Python For Data Analysis: 作者是pandas的主要开发者,也正是Pandas使Python能够像R一样拥有dataframe的功能,能够处理结构比较复杂的数据。这本书其实analysis讲得不多,说成数据处理应该更合适。掌握了这本书,处理各种糟心的数据就问题不大了。

 Introduction to Python for Econometrics, Statistics and Data Analysis:这本书第一章就告诉你要安装Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面,但读起来比较枯燥,可以用来当工具书。

Python Data Visualization Cookbook:用Python做可视化的教材肯定不少,我看过的也就这一本,觉得还不错。其实这类书差别都不会很大,咬住一本啃下来就是王道。

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-09-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

大咖说——高扬:程序猿一定要学大数据吗?

首先,我们都是职场人,在职场中摸爬滚打直到退休。我们都渴望去做有价值的工作,因为工作越有价值,自己的地位越稳固,收入越丰厚,把这个当做追求目标其实无可非议——当...

12120
来自专栏大数据挖掘DT机器学习

谁说文科生不能做数据分析?如何速成数据分析师

“数据分析”是一个含义颇为宽泛的概念,并且,在这个数据化的时代,这个概念几乎是无处不在的。为了保证内容的有效性,在这里仅提供我了解的一些方面。 我接触的数...

44460
来自专栏服务端技术杂谈

移动互联网产品的设计

移动互联网产品的方法论: 手机作为一种联系工具,天然决定了移动互联网的主要服务对象是人群而非个人。移动互联网产品经理的主要任务是服务人群,主要工作是研究...

34440
来自专栏IT技术精选文摘

大规模敏捷之Big Room Planning

本文要点 Big room planning是每季度举行一次的为期两天的计划会议,参与人员包括所有项目和团队成员 如果正确地推进,让100个或更多的人在一起做计...

35370
来自专栏C语言及其他语言

学习新技术的10个建议

我们生活在一个振奋人心的时代。我们可以越来越方便廉价地获得大量学习资源。这些资源的传播载体由最初的教室被变成了博客,技术论坛等。坐拥如此众多的学习资源,我们没有...

40240
来自专栏服务端技术杂谈

这个时代,写给我们这些浮躁的程序员

2010 年初写过一篇博客(我们是一群和平年代充满浮躁与抱怨的程序员),一年过去了,社会好像更浮躁,也有网友问我这方面的问题,于是有了下面这篇文章,再次写 给我...

325110
来自专栏数据的力量

从新人菜鸟到高级运营:没有捷径,请踏踏实实干

如知友 @刘锤 所说,运营的职业发展曲线的确是阶梯式,不管别的运营成长是否如此,起码我身边接触到好的运营就是这么一步一步成长出来的。如下图:

13040
来自专栏CSDN技术头条

薪资提不上去是因为你不懂市场需求

前言 首先在此感谢大家的捧场支持,大家订阅我的 Chat 是对我的信任,本人也不想让大家失望,不想在这篇文章中给大家灌鸡汤,希望分享给大家一些为我所受用的知识,...

35140
来自专栏美团技术团队

工程师如何在工作中提升自己?

24050
来自专栏程序人生

产品赚钱背后的逻辑之广告

本文是几个月前在池老师「攻城狮之路」做过的讲座的删减版。最近整日开会和培训,白天晚上连轴转,说话说到腿软(我现在特别由衷敬佩那些能够站在讲台上讲课的老师,真心不...

28970

扫码关注云+社区

领取腾讯云代金券