大数据十年，十年爬坑之路

挖数

发布于 2019-11-12 22:10:01

1K0

发布于 2019-11-12 22:10:01

文章被收录于专栏：挖数挖数

近年来，大数据技术的发展，不论是技术迭代，还是生态圈的繁荣，都远超我们的想象。从 Spark 成为 Hadoop 生态的一部分，到 Flink 横空出世挑战 Spark 成为大数据处理领域的新星，大数据技术的发展可谓跌宕起伏，波澜壮阔。

在大数据领域，能把技术想明白，用明白的开发者太少了，一些中小型公司的技术 VP ，往往也是在“赶技术的时髦”的状态中，更别说普通的开发者。

挖数的朋友在某互联网大厂从事大数据开发工作，他有九年数据仓库与大数据平台开发、架构经验，曾参与过电商网站用户分析项目、实时交易监控系统项目。今天把他工作十余年总结的经验见闻和学习的成果做了系统的总结分享给大家。

大数据开发，有几个阶段：

1.数据采集【原始数据】
2.数据汇聚【经过清洗合并的可用数据】
3.数据转换和映射【经过分类，提取的专项主题数据】
4.数据应用【提供api 智能系统应用系统等】

数据采集

数据采集有线上和线下两种方式，线上一般通过爬虫、通过抓取，或者通过已有应用系统的采集，在这个阶段，我们可以做一个大数据采集平台，依托自动爬虫(使用python或者nodejs制作爬虫软件)，ETL工具、或者自定义的抽取转换引擎，从文件中、数据库中、网页中专项爬取数据，如果这一步通过自动化系统来做的话，可以很方便的管理所有的原始数据，并且从数据的开始对数据进行标签采集，可以规范开发人员的工作。并且目标数据源可以更方便的管理。

数据采集的难点在于多数据源，例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。还有本地文件、excel统计文档、甚至是doc文件。如何将他们规整的、有方案的整理进我们的大数据流程中也是必不可缺的一环。

数据汇聚

数据的汇聚是大数据流程最关键的一步，你可以在这里加上数据标准化，你也可以在这里做数据清洗，数据合并，还可以在这一步将数据存档，将确认可用的数据经过可监控的流程进行整理归类，这里产出的所有数据就是整个公司的数据资产了，到了一定的量就是一笔固定资产。

数据汇聚的难点在于如何标准化数据，例如表名标准化，表的标签分类，表的用途，数据的量，是否有数据增量?，数据是否可用? 需要在业务上下很大的功夫，必要时还要引入智能化处理，例如根据内容训练结果自动打标签，自动分配推荐表名、表字段名等。还有如何从原始数据中导入数据等。

数据转换和映射

经过数据汇聚的数据资产如何提供给具体的使用方使用?在这一步，主要就是考虑数据如何应用，如何将两个?三个?数据表转换成一张能够提供服务的数据。然后定期更新增量。

经过前面的那几步，在这一步难点并不太多了，如何转换数据与如何清洗数据、标准数据无二，将两个字段的值转换成一个字段，或者根据多个可用表统计出一张图表数据等等。

数据应用

数据的应用方式很多，有对外的、有对内的，如果拥有了前期的大量数据资产，通过restful API提供给用户?或者提供流式引擎 KAFKA 给应用消费? 或者直接组成专题数据，供自己的应用查询?这里对数据资产的要求比较高，所以前期的工作做好了，这里的自由度很高。

总结：大数据开发的难点

大数据开发的难点主要是监控，怎么样规划开发人员的工作?开发人员随随便便采集了一堆垃圾数据，并且直连数据库。短期来看，这些问题比较小，可以矫正。但是在资产的量不断增加的时候，这就是一颗定时炸弹，随时会引爆，然后引发一系列对数据资产的影响，例如数据混乱带来的就是数据资产的价值下降，客户信任度变低。

0转型大数据你要知道的那些事

首先是需要你有编程基础的，从技术层面来说，编程语言（Java，python，R，Go语言 ...）。这些对于大数据开发来讲只是一个工具而已,都具备显著的特点,其中Python和Java更具备广泛的应用领域。所以往大数据开发方向发展，你只需要掌握一门基本语言（java/python/scala）。很多人都在想，我完全不懂大数据就靠这些基础就能学习了吗？实际上大数据开发看上去需要学习的组件很多，但是只要有一定的编程基础，从零开始掌握各个组件的基本应用并不难，掌握应用了再去了解底层调优和源码就会简单很多了。

目前来看Java转型大数据是最容易的，如果你已经具备Java开发工作经验，并且还接触过一定的大数据知识，那你一定要珍惜这次机会。

而且大数据开发这块年龄影响比较小，大数据虽然属于IT行业，但其对于年龄的限制并不大，而这就让而立之年的人没有了后顾之忧，不必为自己的年龄而担忧。目前，已经有很多大龄的老开发人员进入了大数据行业

1. 大数据基础及工具

掌握Linux必备知识，熟悉Python的使用与爬虫程序的编写，搭建Hadoop（CDH）集群，为大数据技术学习打好基础。