前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数仓设计和规范—数仓构建流程

数仓设计和规范—数仓构建流程

原创
作者头像
平常心
修改2021-07-01 18:12:56
1.2K0
修改2021-07-01 18:12:56
举报
文章被收录于专栏:个人总结系列个人总结系列
一. 构建流程

         通常的数据构建流程如下:

说明:这里缺了ETL设计和开发,即数据到ODS层。

二. 构建流程说明

         核心是梳理数据域,指标域,关键是指标的开发:

① 业务板块:是比数据域更高维度的业务划分方法,适用于庞大的业务系统。

② 维度:维度是度量的环境,是我们观察业务的角度,如时间,地点等,用来反映业务的一类属性 。其中描述维度的是 属性,即维度属性,是查询约束条件、分组和报表标签生成的基本来源,是数据易用性的关键。 ③ 度量:度量是指标产生的原始数据,或者是指标的结果值,度量通常为数值型数据,作为事实逻辑表的事实。 ④ 指标:指标分为原子指标和派生指标。原子指标是基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,是具有明确业务含义的名词 ,体现明确的业务统计口径和计算逻辑,例如支付金额。      原子指标=业务过程+度量,如订单数量,支付金额。      派生指标=时间周期(When)+修饰词(How)+原子指标,派生指标可以理解为对原子指标业务统计范围的圈定,如用户近1日通过支付宝支付金额,用户近30日通过手机APP产生的订单数量。

⑤ 业务过程: 业务过程可以是单个业务事件,例如交易的支付、退款等;也可以是某个事件的状态,例如当前的账户余额等;还可以是一系列相关业务事件组成的业务流程。具体取决于您分析的是某些事件过去发生情况、当前状态还是事件流转效率。

⑥ 业务限定:统计的业务范围,筛选出符合业务规则的记录(类似于SQL中where后的条件,不包括时间区间)。

⑦ 统计周期:统计的时间范围,例如最近一天,最近30天等(类似于SQL中where后的时间条件)。

⑧ 统计粒度:统计分析的对象或视角,定义数据需要汇总的程度,可理解为聚合运算时的分组条件(类似于SQL中的group by的对象)。粒度是维度的一个组合,指明您的统计范围。例如,某个指标是某个卖家在某个省份的成交额,则粒度就是卖家、地区这两个维度的组合。

如果您需要统计全表的数据,则粒度为全表。在指定粒度时,您需要充分考虑到业务和维度的关系。统计粒度常作为派生指标的修饰词而存在。

上述开发过程中的demo示例:

三 业务需求规范说明

     业务需求规范主要是说明分析主题,维度(维度层级),分析指标,数据来源和对应业务对象,示例如下:

分析主题

销售情况分析

维度

时间,地区,产品类型

维度层级

时间:年-月-日, 最小粒度日

地区:省-市,最小粒度市

产品类型:天猫,淘宝,聚划算

分析指标

DAU,订单数,支付金额

数据来源

用户日志埋点表,用户订单支付表

业务对象

数据大盘,APP运营,高层报告

备注

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一. 构建流程
  • 二. 构建流程说明
  • 三 业务需求规范说明
相关产品与服务
大数据处理套件 TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)依托腾讯多年海量数据处理经验,基于云原生技术和泛 Hadoop 生态开源技术对外提供的可靠、安全、易用的大数据处理平台。 TBDS可在公有云、私有云、非云化环境,根据不同数据处理需求组合合适的存算分析组件,包括 Hive、Spark、HBase、Flink、presto、Iceberg、Alluxio 等,以快速构建企业级数据湖、数据仓库。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档