专栏首页卡尼慕大数据平台架构+ETL

大数据平台架构+ETL

1

ETL,Extraction-Trasformation-Loading,即数据读取,转换,装载的过程,是构建数据仓库的重要环节。

ETL是将业务系统的数据经过抽取,清洗转换之后加载到数据仓库的过程,目的是将企业中的额分散的,零乱的,标准不统一的数据整合到一起,为企业决策提供分析依据。ETL是BI项目中重要的一个环节。

数据抽取:把不同的数据源数据抓取过来,存到某个地方。例如:网络爬虫。

数据清洗:过滤那些不符合要求的数据或者修正数据之后再抽取。清洗包括以下几种不符合要求的数据:

1、不完整的数据:数据缺失需要不全才能写入数据仓库。

2、错误的数据:格式错误,日期越界,或者多了一个空格等。

3、重复的数据:重复数据记录的所有字段都要去重。

数据转换:不一致的数据转换。统一编码。

ETL的实现方法:

1、借助ETL工具。(如OWB,DTS,SSIS等)实现。

2、SQL方法实现。

3、ETL工具与SQL相结合。

工具降低难度,但缺少灵活性。SQL灵活但编码复杂,因此结合两者。

2

大数据平台架构

首先,对于做大数据开发而言,平台的监控与报警和平台管理不归我们管,主要是给运维人员做的事情。我们要做的就是中间的事情。

然后来看看数据基础平台接入层,获取数据,一般用Canal,Sqoop与Flume。存储层,当我们拿到数据以后,我们需要找个地方存储,首选HDFS(分布式文件系统,前面讲过),这里就是作为一个存储层。另外还有HBase,可以称作大数据中的数据库。Kafka的话一般会跟Flume作为一个组合。调度层,就是把计算层的计算放到调度层运行。如前面讲的小案例,就是把mapreduce放到yarn上面去运行。计算层,就是对数据的处理运算。

接着看数据应用平台元数据管理。这边的元数据要存储到关系型数据库中。作业平台管理,就是任务调度。交互分析就关系到sql语句。多维分析主要是对数据的维度分析,如按年分析,按月分析,按周分析等。数据可视化,展示数据,供给决策。

最后看看数据应用。一般做的就是流量统计和用户行为分析,做数据展示。

3

系统数据流动

最左边是数据来源,可以看到,一个是来自日志数据,另外一个是来源于关系型数据库。

实时流。拿到数据后直接存入kafka或者是hdfs中进行缓存,如果此时计算层需要调度数据,可以直接从kafka中直接消费。计算完后对数据存储还可以存储回kafka或者放到HBase或mysql,从而作为业务上的使用。

离线流,存储到hdfs然后由MR调用,接着是ETL对数据的处理,处理完后将数据存储到关系型数据库,最后可以做出BI报表展示。

这边的话可能我的逻辑也有点乱...主要还是看图分析吧。

本文分享自微信公众号 - 卡尼慕(gh_40138f7dc7d3),作者:卡尼幕

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Hive

    由facebook开源的用于解决海量结构化日志的数据统计,后称Apache Hive 的开源项目。

    可爱见见
  • 1070 结绳 (25 分)

    给定一段一段的绳子,你需要把它们串成一条绳。每次串连的时候,是把两段绳子对折,再如下图所示套接在一起。这样得到的绳子又被当成是另一段绳子,可以再次对折去跟另一段...

    可爱见见
  • PAT乙级题目总结

    cin 和 cout 比 printf 和 scanf 更加耗时,且不要再同一个程序中同时使用 cout 和 printf。

    可爱见见
  • 贝恩咨询:大数据的三个误区及危险

    大数据文摘
  • 构造大数据时代国家安全战略

    随着新一代信息技术的迅速推广,以及大数据在多个领域的广泛运用,大数据已成为一种国家战略资源。中国作为经济大国,亟须提高自己的数据掌控能力,从国家层面,构建自己...

    腾讯研究院
  • 个推CTO安森:我所理解的数据中台

    在前面两篇文章(《数据智能时代来临:本质及技术体系要求》和《多维度分析系统的选型方法》)之中,我们概括性地阐述了对于数据智能的理解,并根据工作中团队涉及到的多维...

    AI科技大本营
  • 投稿 | 达观数据CEO陈运文:大数据挖掘技术在企业创新中的应用

    <数据猿导读> 随着互联网时代的大发展,数据记录逐步脱离了纸笔的限制,与此同时,数据的概念也在进一步拓宽。大数据时代涌现出了大量新型数据的、非结构化的数据,对这...

    数据猿
  • 如何成为一名大数据工程师?

    作为IT类职业中的“大熊猫”,大数据工程师这个职业在国内人才市场可谓是一颗闪耀的新星。由于刚刚出于萌芽阶段,这个领域出现很大的人才缺口。

    华章科技
  • 大数据分析然并卵?那是因为你没做到这些

    看到这篇文章,感觉对数据分析一些点总结蛮好的,分享给大家。数据分析要产生真正的价值,或者说要让业务方,管理层感觉到真正的价值,其实需要非常多的东西:

    华章科技
  • 达则兼妓天下,穷则独占妻身——论大数据教的起源

    本文的标题语,来自我的高中同学,现就职于阿里集团,擅长跳探戈的某非著名仁波切,在这里对他表示言不由衷的感谢。

    华章科技

扫码关注云+社区

领取腾讯云代金券