专栏首页SAMshareBDK | 一起来修炼大数据/数据仓库的内功吧

BDK | 一起来修炼大数据/数据仓库的内功吧

先前有在公众号里说到了接下来自己的学习重点会放在数据仓库的设计与建设、ETL、大数据架构相关的内容了,所以今天就先开一个专栏来专门存放这类的知识,叫 BDK!聪明的你应该也猜到就是BigData Knowledge的简称了。虽然说数据仓库和大数据放在一起还是蛮牵强的,但是我个人觉得其实我们学习的数据仓库、数据湖、ETL、数据挖掘之类的知识,其实都是用来管理我们日益增多的大数据的,因此,从这个角度来看,取这个名字也是有点合理的(哈哈哈哈)。

另外,机器学习、数据分析的内容仍会推送优秀的文章分享给大家的,放心唷!

在之前也写过一些大数据技术处理语言的一些文章,在这里也粘贴一下链接,方便大家回顾知识,同时也补充了接下来的内容。

后续的内容,我会用 BDK 来标识了。

BDK,BigData Knowledge的简称,主要用于更新以下但不限于数据仓库的设计与建设、ETL、大数据架构相关内容的专栏,知识内容来自于相关书籍的个人学习总结笔记,相关资料可见文末的附录。

先罗列出大致的知识框架,主要就是围绕着以下的内容来进行梳理学习的。

以上的东西还是有些抽象化的,下面贴一张阿里巴巴大数据系统的体系架构图,大家可以花点时间来看一看这个架构图,大家了解下有哪些节点,并且有哪些是比较陌生的。(点击图片放大)

大家可以看出这个架构图主要就是分为数据采集层、数据计算层、数据服务层以及数据应用层。

1. 数据采集层

首先一套标准的数据采集体系方案是必须的,它可以高性能、规范地完成海量数据的采集工作。但有了这套体系仍不够,还需要对各个场景的埋点进行规范,从而满足通用浏览、点击、特殊交互、APP事件、H5等多种业务场景,同时还要建立一套高性能的、高可靠的数据传输体系,完成数据从生产业务端到大数据系统的数据传输。

2. 数据计算层

单单只有原始的数据源其实很难发挥数据价值的,数据只有被整合和计算才能辅助数据挖掘和数据分析师来挖掘潜在信息。这里必须需要的是数据存储、计算云平台和数据整合及管理体系。只有这些基础架构完善后,大数据工程师就可以构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性。

这里分享一个阿里数据仓库的数据加工链路的分层理念,包括了操作数据层(Operational Data Store,ODS)、明细数据层(Data Warehouse Detail,DWD)、汇总数据层(Data Warehouse Summary,DWS)和应用数据层(Application Data Store,ADS),通过不同层次之间的加工过程实现从数据资产向信息资产的转化,并且对整个过程进行有效的元数据管理以及数据质量处理和管控。

这里展开一下:

元数据模型整合及应用:包括数据源元数据、数据仓库元数据、数据链路元数据、工具类元数据、数据质量类元数据等,元数据应用主要就是面向数据发现、数据管理等,如用于存储、计算和成本管理。

3. 数据服务层

对已经整合和计算好的数据进行服务提供,一般都是通过接口服务的方式输出。阿里的数据服务平台以数据仓库整合计算好的数据作为数据源,对外提供简单数据查询服务、复杂数据查询服务(承接集团用户识别、用户画像等)和实时数据推送服务三大特色数据服务。

4. 数据应用层

数据都准备好了,就需要一些具体的、合适的应用提供给用户,让数据最大化地发挥价值,阿里在这边的应用主要表现在下面几个方面:如搜索、推荐、广告、金融、信用、保险、文娱、物流等,按照不同的应用领域进行划分。

大体的大数据体系的架构体系就是这么去划分的,大家对这些架构有大致的认识有助于理解后续的学习内容。

? Reference

[1] 大数据之路:阿里巴巴大数据实践

本文分享自微信公众号 - SAMshare(gh_8528ce7b7e80),作者:Samshare

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-12-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • ML_Basic-特征预处理操作指南

    主要是删除原始数据集中无关的数据、重复的数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理异常值缺失值等操作

    Sam Gor
  • BDK | 数据如何进行同步才好呢?

    从上次文章我们知道了最上游的数据采集流程,知道日志数据是如何产生并且传输到我们服务器进行存储的。到了我们的服务器中,会存储在不同的数据库中,数据库是分布在不同系...

    Sam Gor
  • 推荐收藏 | 21 个必须知道的机器学习开源工具!

    你肯定已经了解流行的开源工具,如R、Python、Jupyter笔记本等。但是,除了这些流行的工具之外还有一个世界——一个隐藏在机器学习工具下的地方。这些并不像...

    Sam Gor
  • 《大数据产业发展规划(2016-2020年)》正式印发(附全文)

    导读: 1月17日获悉,为加快实施国家大数据战略,推动大数据产业健康快速发展,工信部编制并正式印发了《大数据产业发展规划(2016-2020年)》(以下简称“...

    灯塔大数据
  • 盛世的阴影:大数据时代的挑战渐渐浮出水面

    数据猿导读 6月29日,由数据猿主办的金融大数据峰会在上海盛大召开,现场汇集了众多来自大数据领域内执牛耳的重量级嘉宾。大数据被誉为第四次工业革命的能源,整个产业...

    数据猿
  • 以银行业为例谈数据治理

    股份制改革对我国银行业来说只是一个开始,企业在风险管理、创造价值等方面还有很长的路要走。风险管理要求提供精准的数据模型、创造价值要求充分银行数据资产,这是数据治...

    王知无
  • 大数据正强势入侵生活的各个方面,你发觉了吗?

    随着互联网的发展,信息交流也在不断加速,大数据在各行各业几乎都站稳了脚跟,特别是越来越多的政府机构与公司组织都已经把大数据应用作为了重要的一环。那么,大数据在社...

    数据猿
  • 数据间关联与追溯

    企业大数据是企业内部资源与相关外部资源的数据集。而企业组织是一个整体,对该组织资源和资源活动进行描述的数据也应该是一个整体,而不应该有孤立的数据。一个企业中的任...

    明悦数据
  • 大数据变现,这里有9种商业模式,你走的哪条路?

    <数据猿导读> 大数据产业具有无污染、生态友好、低投入高附加值特点,对于我国转变过去资源因素型经济增长方式、推进“互联网+”行动计划、实现国家制造业30年发展目...

    数据猿
  • “人才银行”赤字,“数据银行”提不出款 大数据人才亟待弥补

    <数据猿导读> 数据资产转向“数据金融”“数据银行”,不仅意味着大数据的潜在价值进一步被认可,更意味着大数据产业生态进一步完善。而要在产业生态中让数据变现,还需...

    数据猿

扫码关注云+社区

领取腾讯云代金券