入行“大数据”

被邪教化的“大数据”

“大数据”,一个原本作为概念发源于硅谷的短语,如今已经变成了一个Slogan,或者说,一个筐--什么都可以往里装。

一提到“大数据”,大家会想到什么?海量数据,快速处理,挖掘数据的价值,数据的模糊处理技术……“大数据”是一种数据,一种技术,一件事情,它还可以指代一种经济模式、创业类型。

现在那些初创公司,无论是做爬虫、语音识别/合成、NLP、舆情分析的、广告、金融,如此种种,都可以说自己是“大数据”公司。对于投资人而言,只要项目/公司沾上了这三个字,就瞬间打开了盈利之门。“大数据”,已经变成了某种咒语,无本万利、包治百病——大数据正在被“邪教化”。

和“大数据”这个标签相关的工作职位也越来越多,每一个的职衔听起来都很酷,同时存在的,还有很多很酷的说法,比如“未来10年最赚钱的就是做大数据”之类。众多有为有志的青年学子,包括职场中人,深深为之吸引,生出投身其中的念头。然而,“大数据行业”到底是干什么的?需要具备哪些技能才能够进入?投身到轰轰烈烈的事业中去之前,还是先做一点调查研究比较好。

“大数据”相关职位

“大数据”相关职位,按职业方向,可以为分i.技术和ii.管理两部分(此处的管理指对数据的管理,而不是人)。

1.技术类职位

大概可以分类如下这些方向:

1.1 理论研究,指研究数据分析/挖掘相关的算法理论,或者上述所需工具的相关理论。说简单点,以目前来看,就是统计学、机器学习(人工智能)、分布式存储/计算的理论研究。

从事理论研究,去处比较少,一般就是科研院所和大公司研究院。这是一条学术路线,入职条件一般需要相关专业(数学/统计学/计算机科学等)的PhD,需要师承,需要在研究机构做学术研究的经历(最典型就是读博期间的研究)。

1.2 工具开发,指为实施数据分析/挖掘的人提供工具。比如HDFS(Hadoop分布式文件系统),YARN(一种新的Hadoop 资源管理器),Spark 这些平台/框架的开发者,或者SAS,SPSS这类分析软件及数据库类软件的开发者。当然,也包括R,Python等语言的函数包、机器学习库的提供者(这些提供者很多也是有学术背景的)。

从事工具开发的学术要求总体而言,弱于理论研究,但是,很明显要求强大的coding能力以及算法能力。

如果有从事这类职位的意愿,可以先考虑一下你想开发哪类工具。如果是开源软件,(比如Spark,Hadoop etc.),那么首先通过读源码、实践等方法对该软件项目进行学习和了解;然后可以尝试对其社区进行一些贡献,比如回答提问之类;之后可以尝试提交一些BugFix,逐步成为Committer。当然,也有一些工具有相应的商业公司对其进行维护改进(e.g. Cloudera之于Hadoop),其中一些公司在国内也有研发中心,去求职当然是直接入行的途径。

1.3 系统构建(平台搭建),指利用已有的开源或商业软件,构建自身的数据分析平台/系统的工作。

实际上现在对于“大数据人才”最主要大需求在这里。这是一个以Engineering为主的行业。需要较强的Coding能力和架构能力。一般一个公司内部,负责构建这种平台的人都具备“架构师”的Title,因此还要求比较丰富的经验。另外,做这份工作,一般都要承担一些运维的责任,至少是在开发期,对于操作系统、脚本语言的熟悉也是必须的。

由于现在和“大数据”相关的开源工具大部分是Java实现的,做这一行,熟悉Java恐怕是必须的。

1.4 数据处理,指利用他人开发好的工具、构建好的平台,对数据进行以ETL(Extract-Transform-Load)为主的操作。通常还包括一些数值计算和聚类之类的简单分析工作。

比如,某公司的平台以Spark为基础,那么数据处理人员的日常工作就是写一些SparkJob。让这些Job作用在源数据之上,生成相应的目标数据。这份工作还有一个分支,叫做DataQuality,类似于软件开发中的QA。

做这类工作,也要求一定的编程能力和操作系统、计算系统的知识。同时,也要求对业务的一定了解,有些还会要求数据库知识。

1.5 数据分析,指对数据进行统计建模等运算,生成insight的过程。通常所说的数据挖掘可以看作数据分析的一个子集,一般指要运用数据库和机器学习技术。

如果把“数据分析”作为一个统称的话,这个行业的门槛基本上没有。虽然有些团队,要求做数据分析的人是DataScientist,要求数学或者计算机相关专业的PhD学位。但是,同时存在更多的公司和团队,他们可以接受以前做Marketing,做Sales,做PM的人,文科出身的人转行来做数据分析。

这是一个qualityrange非常巨大的行业,也确实为想入行的人提供了最大的方便之门。这类工作,在不同的单位对其的要求差别很大。即使在同一个单位,不同的团队的要求也差别很大。

往高深了说,DataScientist需要具备进行统计学和机器学习领域学术研究的能力。但在实际中,很多地方更急需的,确实做出漂亮的分析报告,具备形态各异的图标和绚丽的色彩。虽然其内容可能只是各地销售量罗列,可能连个均值都不用算,要想胜任,能熟练使用Excel,和一些数据可视化软件就好了。而且,现在大量与传统BI兼容的图形界面的大数据分析平台相继涌现。完全可以想象,在不远的未来,数据分析人员只需要在webpage上对数据源的column进行一些拖拽,填写几个计算公式,就能够得出赏心悦目的图表。

因此,不具备理论基础,不会编程,又想投身“大数据”事业的同学,最好的入行切入点就是BI或数据分析师(DataAnalyst)。走一条先了解业务,再提供数据报告的路。

2.管理类职位

什么叫数据管理呢?举个例子来说,某公司有一个数据中心,具备上千PB的存储量,但是现在每天的新增数据量就上PB。这样发展下去,几年功夫数据中心的存储就被耗尽了,到时候怎么办?把旧数据删除?还是现在每天就不要存那么多数据了?还是应该提前扩建数据中心?或者干脆所有存储都采取租赁形式?所有这些数据相关的方向、策略、规则的制定和监督执行工作就属于数据治理、管理范畴。

目前国内做管理方向的人员还不多,专门做这一工作的公司虽然有,但还很少。不过随着技术的发展,对于管理的需求一定会逐步提上所有公司企业的日程。目前做数据管理的人,多多少少都具备技术背景。

因此,以目前的形式来看,大多数普通从业者进入“大数据行业”,还是要从技术岗位开始。

在泡沫中游向前方

“大数据行业”还是一个新的行业。新,意味着门槛低,意味着没有旧有势力,意味着大有可为。在方兴未艾的窗口期内,不管你以前是干什么的,只要真心想进来,总能进得来。但同时,也意味着巨大的泡沫,和未来迅速紧缩的风险。

进来容易,要想立足,就得不断学习,内外双修——内:理论知识的习学研究,目前主要包括:统计知识、机器学习知识和数据库知识等;外:对工具的运用,Java, Python, R, SQL, SAS, SPSS, Excel, Tableau等等。

原文发布于微信公众号 - 悦思悦读(yuesiyuedu)

原文发表时间:2015-11-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

关于数据分析有两个段子,谈数据分析那点事

从微博段子说起,微博上关于数据分析有两个段子,我经常当作案例讲,第一个段子,说某投资商对某企业所属行业有兴趣,要做背景调查,甲是技术流,一周分析各 种网上数据,...

3765
来自专栏Golang语言社区

如何才能成为成功的独立游戏开发者?

不久前我收到一封邮件,对方在邮件上问我“如何才能成为一名独立游戏开发者?” 虽然我的回复是全力以赴,但是我却不清楚他们真正寻求的答案是什么。我们经常会被问及类似...

5708
来自专栏python+iOS学习交流

iOS程序员是如何获得高薪的?

经常听见朋友抱怨自己水平和同事不相上下,甚至更强,工资却没有别人的高,主要原因有两个:

1850
来自专栏腾讯云技术沙龙

7分钟读懂《科技驱动教育,AI连接未来》沙龙重点

随着互联网和信息技术的发展,人们获取知识的方式和途径也发生着巨大的变化。尤其是从互联网到移动互联网,创造了跨时空的生活、工作和学习方式。教育也随之发生着变革,为...

2254
来自专栏Java学习123

程序员如何持续提升自己的开发技能

3299
来自专栏大数据和云计算技术

Scrum学习,革自己的命,让别人说去

越是大公司,流程越落后,越僵化。大公司成功的原因在于积累丰厚,打个不好的比喻就是地主家有余粮,冬天不容易饿死。但是地主的儿子不见得比穷人的儿子有能力。 一、Sc...

3236
来自专栏企鹅号快讯

2018年java工程师就业前景数据分析

java语言在2017年就是一个备受争议的编程语言,有人说java语言已经过时了,java工程师已经饱和了;也有的人说java语言还是风光依旧,热度不减。但20...

2997
来自专栏PPV课数据科学社区

【资讯】什么撑起下一代互联网?智能推荐

智能推荐引擎的基本逻辑是什么?热门、兴趣、地域、探索四大策略逻辑,预测群体的行为。 智能推荐爆红于资讯产业是因为啥?海量信息带动海量反馈数据推导出精准算法。 智...

3084
来自专栏Java技术栈

年后跳槽,5个诀窍帮你找到满意的工作

很多人在找工作的过程中,总是碰壁,在之前一篇文章中讲述了我的一些个人经历。我是个普通的人,而我相信很多人都跟我一样,不是那么的有才华,也不是那么的笨,所以我的经...

35612
来自专栏ThoughtWorks

打造你自己的技术雷达

Neal Ford ThoughtWorks 20世纪90年代的大部分时间以及21世纪初,我一直都在一家小型培训咨询公司担任CTO。在这份工作开始之初,主流平台...

3464

扫码关注云+社区

领取腾讯云代金券