前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >入行“大数据”

入行“大数据”

作者头像
叶锦鲤
发布2018-03-15 10:49:05
7070
发布2018-03-15 10:49:05
举报
文章被收录于专栏:悦思悦读悦思悦读

被邪教化的“大数据”

“大数据”,一个原本作为概念发源于硅谷的短语,如今已经变成了一个Slogan,或者说,一个筐--什么都可以往里装。

一提到“大数据”,大家会想到什么?海量数据,快速处理,挖掘数据的价值,数据的模糊处理技术……“大数据”是一种数据,一种技术,一件事情,它还可以指代一种经济模式、创业类型。

现在那些初创公司,无论是做爬虫、语音识别/合成、NLP、舆情分析的、广告、金融,如此种种,都可以说自己是“大数据”公司。对于投资人而言,只要项目/公司沾上了这三个字,就瞬间打开了盈利之门。“大数据”,已经变成了某种咒语,无本万利、包治百病——大数据正在被“邪教化”。

和“大数据”这个标签相关的工作职位也越来越多,每一个的职衔听起来都很酷,同时存在的,还有很多很酷的说法,比如“未来10年最赚钱的就是做大数据”之类。众多有为有志的青年学子,包括职场中人,深深为之吸引,生出投身其中的念头。然而,“大数据行业”到底是干什么的?需要具备哪些技能才能够进入?投身到轰轰烈烈的事业中去之前,还是先做一点调查研究比较好。

“大数据”相关职位

“大数据”相关职位,按职业方向,可以为分i.技术和ii.管理两部分(此处的管理指对数据的管理,而不是人)。

1.技术类职位

大概可以分类如下这些方向:

1.1 理论研究,指研究数据分析/挖掘相关的算法理论,或者上述所需工具的相关理论。说简单点,以目前来看,就是统计学、机器学习(人工智能)、分布式存储/计算的理论研究。

从事理论研究,去处比较少,一般就是科研院所和大公司研究院。这是一条学术路线,入职条件一般需要相关专业(数学/统计学/计算机科学等)的PhD,需要师承,需要在研究机构做学术研究的经历(最典型就是读博期间的研究)。

1.2 工具开发,指为实施数据分析/挖掘的人提供工具。比如HDFS(Hadoop分布式文件系统),YARN(一种新的Hadoop 资源管理器),Spark 这些平台/框架的开发者,或者SAS,SPSS这类分析软件及数据库类软件的开发者。当然,也包括R,Python等语言的函数包、机器学习库的提供者(这些提供者很多也是有学术背景的)。

从事工具开发的学术要求总体而言,弱于理论研究,但是,很明显要求强大的coding能力以及算法能力。

如果有从事这类职位的意愿,可以先考虑一下你想开发哪类工具。如果是开源软件,(比如Spark,Hadoop etc.),那么首先通过读源码、实践等方法对该软件项目进行学习和了解;然后可以尝试对其社区进行一些贡献,比如回答提问之类;之后可以尝试提交一些BugFix,逐步成为Committer。当然,也有一些工具有相应的商业公司对其进行维护改进(e.g. Cloudera之于Hadoop),其中一些公司在国内也有研发中心,去求职当然是直接入行的途径。

1.3 系统构建(平台搭建),指利用已有的开源或商业软件,构建自身的数据分析平台/系统的工作。

实际上现在对于“大数据人才”最主要大需求在这里。这是一个以Engineering为主的行业。需要较强的Coding能力和架构能力。一般一个公司内部,负责构建这种平台的人都具备“架构师”的Title,因此还要求比较丰富的经验。另外,做这份工作,一般都要承担一些运维的责任,至少是在开发期,对于操作系统、脚本语言的熟悉也是必须的。

由于现在和“大数据”相关的开源工具大部分是Java实现的,做这一行,熟悉Java恐怕是必须的。

1.4 数据处理,指利用他人开发好的工具、构建好的平台,对数据进行以ETL(Extract-Transform-Load)为主的操作。通常还包括一些数值计算和聚类之类的简单分析工作。

比如,某公司的平台以Spark为基础,那么数据处理人员的日常工作就是写一些SparkJob。让这些Job作用在源数据之上,生成相应的目标数据。这份工作还有一个分支,叫做DataQuality,类似于软件开发中的QA。

做这类工作,也要求一定的编程能力和操作系统、计算系统的知识。同时,也要求对业务的一定了解,有些还会要求数据库知识。

1.5 数据分析,指对数据进行统计建模等运算,生成insight的过程。通常所说的数据挖掘可以看作数据分析的一个子集,一般指要运用数据库和机器学习技术。

如果把“数据分析”作为一个统称的话,这个行业的门槛基本上没有。虽然有些团队,要求做数据分析的人是DataScientist,要求数学或者计算机相关专业的PhD学位。但是,同时存在更多的公司和团队,他们可以接受以前做Marketing,做Sales,做PM的人,文科出身的人转行来做数据分析。

这是一个qualityrange非常巨大的行业,也确实为想入行的人提供了最大的方便之门。这类工作,在不同的单位对其的要求差别很大。即使在同一个单位,不同的团队的要求也差别很大。

往高深了说,DataScientist需要具备进行统计学和机器学习领域学术研究的能力。但在实际中,很多地方更急需的,确实做出漂亮的分析报告,具备形态各异的图标和绚丽的色彩。虽然其内容可能只是各地销售量罗列,可能连个均值都不用算,要想胜任,能熟练使用Excel,和一些数据可视化软件就好了。而且,现在大量与传统BI兼容的图形界面的大数据分析平台相继涌现。完全可以想象,在不远的未来,数据分析人员只需要在webpage上对数据源的column进行一些拖拽,填写几个计算公式,就能够得出赏心悦目的图表。

因此,不具备理论基础,不会编程,又想投身“大数据”事业的同学,最好的入行切入点就是BI或数据分析师(DataAnalyst)。走一条先了解业务,再提供数据报告的路。

2.管理类职位

什么叫数据管理呢?举个例子来说,某公司有一个数据中心,具备上千PB的存储量,但是现在每天的新增数据量就上PB。这样发展下去,几年功夫数据中心的存储就被耗尽了,到时候怎么办?把旧数据删除?还是现在每天就不要存那么多数据了?还是应该提前扩建数据中心?或者干脆所有存储都采取租赁形式?所有这些数据相关的方向、策略、规则的制定和监督执行工作就属于数据治理、管理范畴。

目前国内做管理方向的人员还不多,专门做这一工作的公司虽然有,但还很少。不过随着技术的发展,对于管理的需求一定会逐步提上所有公司企业的日程。目前做数据管理的人,多多少少都具备技术背景。

因此,以目前的形式来看,大多数普通从业者进入“大数据行业”,还是要从技术岗位开始。

在泡沫中游向前方

“大数据行业”还是一个新的行业。新,意味着门槛低,意味着没有旧有势力,意味着大有可为。在方兴未艾的窗口期内,不管你以前是干什么的,只要真心想进来,总能进得来。但同时,也意味着巨大的泡沫,和未来迅速紧缩的风险。

进来容易,要想立足,就得不断学习,内外双修——内:理论知识的习学研究,目前主要包括:统计知识、机器学习知识和数据库知识等;外:对工具的运用,Java, Python, R, SQL, SAS, SPSS, Excel, Tableau等等。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智汇AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 被邪教化的“大数据”
  • “大数据”相关职位
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档