专栏首页王小雷Pipeline大数据架构

Pipeline大数据架构

1.Pipeline大数据架构

(create by 王小雷)

Pipeline大数据架构,面向大数据仓库和大数据处理平台。是基于lambda的大数据架构的变种,增加了企业级服务,而并非只是大数据组件的对切,是一种更落地的方案。 如同骨架之间使用软骨连接起来一样,是一个完整可执行的架构设计。形成Pipeline架构。

Pipeline大数据架构由一个源、四个层(1+4)组成。

2.数据源

数据源是泛指需要大数据平台处理的所有数据源。大多时候是企业的业务系统产生的,这部分一般都是在大数据平台之外,而且关系型数据为主。

2.1.关系型数据源

如MySQL、PostgreSQL中的业务数据,这部分是绝多大企业要处理的数据。

2.2.非关系型数据源

如MongoDB数据、日志数据等。

3.基础调度层

大数据处理是集群执行的。那么就需要大数据应用的任务调度、资源调度。

其中有很多大数据组件具有调度能力。称为基础调度层。

3.1.Zookeeper

3.2.YARN

3.3.Azkaban

4.大数据平台管控层

管控层在基础调度层之上,上文是数仓/数据处理层,下文是基础调度层。旨在让集群资源、任务调度机制更加定制、自动、智能化。

比如一个很大的数据处理,需要两种通道Hive ETL或者Spark SQL都可以处理,但是根据文件大小和结构,百分之三十用Hive ETL,70%用Spark SQL处理。 让处理时间和资源占用达到整体较优。

4.1.智能调度决策流服务

数据处理是多种通道的,如Spark处理、Flink处理,但是根据数据的特点和业务要求,需要通过不同策略调用不同处理方式来处理数据。

4.2.任务状态监控服务

整个Pipeline任务执行时间、状态、结果都是需要监控服务来记录和报警的。

4.3.任务重试/数据回溯服务

某个单元数据处理出现问题、未通过数据校验等需要这部分数据重新计算或者回溯原始数据。

4.4.管控通信服务

集群管控信息收集后发送给大数据对应模块负责人。邮件为主,紧急可以短信。

4.5.并行调度服务

为了充分利用资源和任务特性,有些数据处理任务需要并行调度。

5.数据仓库/数据处理(离线处理/实时处理)层

Pipeline大数据架构核心层,数仓、数据湖泊、实时处理、批处理,也是lambda核心的变种,同样增了企业级可行性服务。

如字典服务,规则生成引擎等。

5.1.pipeline数据摄取/缓存

大数据系统外/内的待处理数据或者输出数据的大通道,一切数据的在大数据平台的进出由该模块负责。

如果细胞的细胞壁。也如同屠夫的钩子(按Q)。

5.1.1.Flume数据缓存服务

大多时候是接入Log日志,如数据库的write-ahead logging (WAL)、系统埋点日志数据等等,无侵入接入数据。

5.1.2.Kafka数据缓存服务

通常是来对接Flume,用Topic等连接,并分发到计算引擎或者沉淀到存储系统,或者暂时缓存数据。

5.1.3.引擎数据直连服务

引擎直连服务可能对业务系统有害,因为是侵入式直连,数据的抽取或者写入会对业务系统有很大影响。

但是,敏捷开发,或者刚开始建立大数据平台,这种方式来的最快。不需要更多大数据链路,抽过来数据直接处理。这先落地再优化的方法,何乐而不为呢(减少加班吧)。

5.2.Pipeline数据处理 core

5.2.1.在线处理引擎

Flink

5.2.2.离线处理引擎

Spark SQL

5.2.3.字典服务

业务系统有多个产品,多个库,它们根据业务不同,库、表、字段各不相同,需要大数据这边有一个字典服务,记录、汇总、跟踪业务系统数据字典。

为SQL自动拆箱/装箱引擎、数据层设计/规则生成引擎提供原料。

5.2.4.SQL自动化拆箱/装箱引擎

配合计算引擎,达到批量计算,如有1万张表需要抽取到大数据仓库,用Spark SQL实现,其中包括数据的特殊更改、全量、增量、流水、拉链等操作。

5.2.5.同步记录服务

多业务多库多表同步到数仓或者处理时候,增量同步记录服务。

5.2.6.数据层设计/规则生成引擎

业务分析师将业务数据与大数据开发团队对接。

将业务数据规则设计为大数据数据,偏向业务对接、分析。

5.2.7.Hive数据ETL服务

作为数据处理的工具,可做简单的ETL工作。

5.3.Pipeline数据存储

数仓存储根据层次、业务的不同可存储不同。原始数据,非规则化数据,超大文件可存储在HDFS上,冷数据做压缩处理。

HBase直接对接引擎计算后的数据沉淀。

Hive可存储不同层次的数据,但是更多时候是做数仓的管理工具,如外部数据HDFS、Hbase等外部表。

5.3.1.HDFS

5.3.1.HBase

5.3.1.MySQL、Redis

5.3.1.Hive

5.4.Pipeline数据治理

数据治理是在数据接入到大数据平台时做规范,如日期规范、脱敏、字段类型映射等等。

5.4.1.数据规范服务

5.4.2.人工检测

5.4.3.数据校验服务

6.对外业务分析层

6.1.HUE提供SQL查询功能,供业务分析部分使用

1HiveQL SparkSQL Impala

6.2.1.在线业务分析

6.2.1.组成 Restful/web服务

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • SAS进阶《深入解析SAS》之对多数据集的处理

    SAS进阶《深入解析SAS》之对多数据集的处理 1. 数据集的纵向串接: 数据集的纵向串接指的是,将两个或者多个数据集首尾相连,形成一个新的数据集。 据集的横...

    王小雷
  • SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

    版权声明:本文为王小雷原创文章,未经博主允许不得转载 https://blog.csdn.n...

    王小雷
  • Python之pandas数据加载、存储

    Python之pandas数据加载、存储 0. 输入与输出大致可分为三类: 0.1 读取文本文件和其他更好效的磁盘存储格式 2.2 使用数据库中的数据 0.3 ...

    王小雷
  • 大数据专才:“走俏”变“紧缺”

    应对大数据时代的挑战,国内学术界最近动静不小。中科院院士马志明说,上月他每周都在见证一家全新的、和大数据相关的研究机构或研究平台诞生。从中科院系统内部培育的重...

    腾讯研究院
  • 【编译】在大数据时代,看渣打银行如何革自己的命?

    数据猿导读 随着数据科学和开源数据技术时代的到来,传统银行逐渐形成了两大类:一类是积极拥抱数据革命,另一类则保持原来的状态。 ? 编译 | 郭敏 这是一个信息爆...

    数据猿
  • 数据分析师,岗位真相最全解析!

    很多同学希望加入数据之路,很多同学想在数据之路上更上一层楼。可是,你真的知道,企业口中的“数据分析师”是啥玩意吗?有经验的老鸟都切身体会过,在数据分析师的名字下...

    接地气的陈老师
  • 凯哥讲数据中台[006]企业数据利用的四大陷进

    数据的重要性在当今已经无需在多言,所有的企业都意识到数据的重要性,都希望利用数据来驱动业务的发展。

    凯哥
  • #凯哥讲数据中台#数据中台建设成功的三个阶段

    自从数据中台爆火以后,天天有人问如何度量数据中台建设的效果,怎么证明数据中台建设就成功了。

    凯哥
  • 创造价值是大数据应用的根本,当大数据成为思维习惯时,产业发展才算成熟 | 大咖周语录

    近年来,全球大数据产业磅礴发展,经过多年的探索,我国大数据产业发展取得不小的成果,同时,大数据产业进一步发展也面临着多重困难与挑战。当大数据成为思维习惯时 产业...

    数据猿
  • 在构建数据中台之前,你需要知道的几个趋势

    近期数据中台的概念很火,如何将数据能力变成企业的核心竞争力,构建数据中台,用数据去驱动企业的决策,运营,成了大家都在谈的事情。

    凯哥

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动