离线和实时大数据开发实战

离线和实时大数据开发实战

2018-7-6 张子阳 推荐: 3 难度: 5

这本书是公司一位负责数据库的同事推荐的,正好数据中心也在重构和优化,以应对更加海量的数据,所以便花了点时间读完了这本书。全书分了三个篇章:全局概览,从比较高的高度概述了大数据的概念及相关技术;离线数据开发,主要讲解了Hadoop和Hive以及相关的数据建模;实时数据开发,按照各个技术出现的时间先后,依次讲解了Storm、Spark、Flink和Beam。

这本书首先按照按照数据处理的流程,将数据处理分成了下面几个步骤

  1. 数据产生:可以是后台业务数据、日志数据、客户端埋点数据、爬虫数据、其他第三方数据等。
  2. 数据采集和传输:数据源主要分为文本和数据库两种。
  3. 数据处理和存储:将采集来的数据进行ETL(抽取、转换、加载)和持久化保存。
  4. 数据应用:当前主要还是“看”,未来可以利用深度学习、数据挖掘、机器学习等方式获得更多价值。

按照数据存储的实效性,将数据处理分为了三类:

  1. 离线处理:今天处理昨天或者更久前的数据,时间单位通常是天。
  2. 近线处理:处理15分钟或者1小时之前的数据,时间单位通常是分钟。
  3. 实时处理:处理即时收到数据,时效主要取决于传输和存储速度,时间单位通常是秒甚至毫秒。

因为近线处理的边界比较模糊,所以这本书几乎没有做讨论,只是讲述了离线处理和实时处理。

有了这两个维度以后,作者介绍了当前的主流技术。值得注意的是,这里并没有绝对的一个划分,比如说Kafka作为数据采集既可以用于实时,也可以用于离线;Spark可以用于离线,Spark streaming则用于实时,仅仅是一个倾向度。

数据采集

数据处理

数据存储

数据应用

离线处理

Sqoop

MapReduceHive

HDFSHBase

DrillR语言TensorFlow

实时处理

FlumeKafka

StormSparkFlinkBeam

按作者的观点,当前大数据的主要战场仍是离线处理,但实时处理是未来发展的方向。比方说,双11的销售和订单数据,就需要实时的显示在阿里的大屏幕上,而不是到了第2天才统计出双11的销量。另外,由于近几年人工智能的快速发展,实时已经不是最好,而逐渐成为必需。

除了相关的技术以外,作者还讲述了数据仓库建模的理论和方法,介绍了建模领域的两位业界大拿:Bill Inmon和Ralph kimball。总体上,Kimball的方案更接地气一些,更详细的内容,需要查看他们的作品。数据仓库建模,按我的理解,就是数据的清洗和转换,将原本杂乱(非结构化数据)或者详细的明细数据,根据不同业务部门的需要,清洗、整理或者聚合成统计数据。这里主要是一个维度问题,因为同一份数据,不同的业务部门关注的角度可能会不同,因此,需要针对不同的业务建立不同的维度(数据集市)。

第二大部分,离线数据处理,介绍了Hadoop的两个组成部分HDFS和MapReduce。Hive,由于MapReduce需要编程实现,不利于部分数据使用人员,而Hive则将大数据的处理和分析能力赋予了普通数据相关人员。Hive构建在MapReduce之上,提供了一个类似于SQL的查询接口,Hive SQL最终会被翻译为MapReduce然后在Hadoop集群中执行。这部分还较为详细地介绍了Hive优化和维度建模。

第三大部分,实时数据处理,介绍了“第一代”实时流计算技术:Storm;“第二代”:Spark;“新生代”:Flink,以及未来有可能统一实时和离线的标准:Beam。这一部分,作者的节奏很快,快速讲述了发展历史、核心概念后就转为示例,作为读者是有一点难以接收和理解的。

总的来说,这本书能为各个技术提供一个鸟瞰式的概览,同时又提供了一些“实战”的内容,可是当读者只有一个概念时,感觉上又难以转入实战。因为,整本书都没有类似“操作手册”的部分(也有一些书整本都是操作手册,没讲基础概念,也很枯燥无味),所以实际上读者无法自行搭建其中某项技术的开发环境,比如Hadoop或者Spark,这样,因为环境没有搭建起来,也就无法进行实战和代码演练了。个人觉得这本书更适合有经验的人阅读,如果是针对入门者,则可以将概念讲得更细更深入,代码部分更简略。毕竟,一本书想要涉猎如此之多的大数据技术,也只能点到为止了吧。

不管实时还是离线,大数据的存储始终是基于HDFS。很多公司在面临海量数据时(传统的Mysql难以应对时),首先考虑的部分也是存储问题。对我而言,应当以这一部分和其相关的Hadoop生态圈,作为更深层次的切入点了吧。

感谢阅读,希望这篇文章能给你带来帮助!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据和云计算技术

搜索概述

最近比较流行的段子是调侃搜狗CEO王小川,说他终于可以找女朋友了,因为之前王小川曾说过,搜狗不上市,就不找女朋友,搜狗终于宣布要赴美IPO了。 王小川最出名的是...

46650
来自专栏一名叫大蕉的程序员

靠谱的数据开发从业指南No.82

有小伙伴让我聊聊数据开发的职业规划和从业指南,因为数据开发从业人员的知识量实在是太太太大了,今天恰好这个机会好好聊聊。

22460
来自专栏挖掘大数据

详解10个最热门的大数据技术

随着大数据分析市场快速渗透到各行各业,哪些大数据技术是刚需?哪些技术有极大的潜在价值?根据弗雷斯特研究公司发布的指数,这里给出最热门的十个大数据技术。

244100
来自专栏机器学习算法原理与实践

机器学习研究与开发平台的选择

    目前机器学习可以说是百花齐放阶段,不过如果要学习或者研究机器学习,进而用到生产环境,对平台,开发语言,机器学习库的选择就要费一番脑筋了。这里就我自己的机...

12340
来自专栏华章科技

1个月只敲1天代码,拿着全额薪资,我错了吗?

每周工作2小时,相当于1个月只上1天班,拿全薪。公司从来没有表示他们对我的表现不满意。他们从雇用我中得到了他们想要的,而我还可以在家陪陪儿子。不告诉老板,有错吗...

9620
来自专栏PPV课数据科学社区

【热点】大数据分析的八大趋势

Intuit公司的数据工程副总裁Bill Loconzolo,双脚踏进了数据湖。.Smarter Remarketer的首席数据科学家Dean Abbott直接...

33020
来自专栏SDNLAB

MEF、TM论坛携手运营商促进LSO API标准化

MEF、TM论坛正在与多个服务提供商合作,致力于标准化生命周期服务编排(LSO)应用程序编程接口(API),以跨多个网络协调服务。 ? 参与LSO API标准制...

365110

用Spark做数据科学

我们与Exaptive的数据科学家Frank Evans就Spark在数据科学中的地位进行了非常愉快的交流。

23940
来自专栏PPV课数据科学社区

32页干货PPT:Hadoop在广告监测技术的实践

分享人:卢亿雷 Admaster技术副总裁 PPT概要: 围绕广告营销数据流程、广告监测技术特点、广告监测数据差异、广告数据挖掘平台架构、ADH在广告营销数据挖...

36430
来自专栏大数据技术学习

0基础学习大数据,你需要了解的学习路线和方向?

现在大数据这么火,各行各业想转行大数据,那么问题来了,该往哪方面发展,哪方面最适合自己?

32420

扫码关注云+社区

领取腾讯云代金券