文章/答案/技术大牛

发布

首页视频007_数仓概念-系统数据流程

007_数仓概念-系统数据流程

2022-12-022022-12-02 16:02:27播放38

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据项目之电商数仓5.0/视频/007_数仓概念-系统数据流程.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那组件呢，我们选完了，那组件选完之后，我们的数据应该如何在这些大数据组件之间来进行流转呢？好啊，接下来我们看一看系统数据流程的设计啊，打开之后啊，我们首先看到有业务数据以及用户行为数据，那其实啊，我们还有一个爬虫数据，只不过爬虫数据我们不做了啊，那在这呢，我们就不考虑了，那业务数据啊，我们通过业务服务器给他发送到MYSQ数据库当中了，那用户行为数据呢，我们通日志服务器打到日志服务器本地的一个文件当中，那这个日志服务器我部署在了哪台服务器，那么这个日志文件我就给它写到哪个服务器下面的一个文件当中，OK，那这个N这个丝它的作用是什么呢？哎，它在这的作用呀，是转发的作用，你比方说我们这块，哎，这一瞬间呢，有1万条数据，那这1万条数据，你说有没有可能全都打到这一个服务器下面了，诶有啊，那这个就会出现。
01:11
一个数据倾斜的这么一个状况，那这种情况很有可能啊，就把我们这一个服务器给压垮了，哎，那他呢，他是闲着呀，他什么都没干呢，那这个情况不好，那怎么办？我们通过N这个斯来进行请求转发，那N这个斯啊，它可以配置一个轮巡的错略，那你一条你一条，你一条你一条，哎轮询的这么一个策略啊，那最终这1万条数据啊，1万条数据，你5000条，哎，你5000条，他们两个干的活都一样啊，OK，那同理啊，下面的这个N这个词，它的作用也是请求转发好了，那现在数据已经到my circleq业务数据库以及日志文件当中了，那不管是业务数据还是用户行为数据，他们最终啊都是要拿到离线数仓，还有实时数仓来计算的，那我们如何把这两部分数据给它发送到离线数仓和实时数仓呢？好，首先我们来。
02:11
看一看用户行为数据，那他现在已经到日志文件了，那日志文件当中的数据啊，我们先分析啊，我们如何给他采集到离线输仓呢？也就是我们的哈杜呗，哎，HDFS，那日志文件当中的数据如何发送到HDFS的，诶这个我们是不是都会呀，我们可以用来做这个事儿，用把日志文件当中的数据给它发送到HDFS，但是那这个地方我们就得想了。那我们是做电商的呀，那既然是做电商，我们就要做活动，那既然有活动了数据啊，它就会出现激增的这么一个状态，那如果说数据一激增，我们呢，把这些数据通通的打到HDFS，那HDFS很有可能就被我们压垮，哎那这样不行，那啊它不能直接就对接我们的卡多普集群，哎他呢要先把数据给他发送到卡夫卡集群，做一个消峰的处理，发送到卡夫卡集群之后，然后我下面什么时候有时间，我再把卡夫卡集群的数据啊给你消费出来，那用什么消费啊，哎，我们也可以用来把这个数据给它拿出来，拿出来之后发送到我们的哈多普集群，好，那这个是我们的用户行为数据啊，我们给他发送到哈多贝集群了，也就是理想数仓，那业务数据呢？
03:43
我们如何给它发送到离线输仓啊，诶，业务数据在这个地方我们有两个链路啊，因为我们的业务数据它是分全量同步和增量同步的，那全量同步啊，我们就直接通过这个叉来全部的把数据发送到哈多be集群就完事了，那还有增量数据，那增量数据呢，我们通过max one，哎，把新增机变化的数据先给它同步到卡夫卡，那同步到了卡夫卡之后啊，我们再通过一个flow把业务的增量数据消费出来，发送到我们的哈多集群，发送到HDFS，那么到这儿我们的业务数据以及用户行为数据是不是就都发送到我们的哈多集群了呀，那发送到哈多集群之后，那接下来我们就可以进行数仓建模了，诶，离线数。
04:43
的建模，那关于离线输仓的建模，我们之前是不是也说过呀啊，分四层，第一层是ods啊，接下来DWDDWS啊，ADS，那每一层有什么作用啊，我们在这呢就不再说了，之前我们也说过了，好。
05:00
诶，那在这个地方还有一个层叫做dim层，什么意思呢？维度层啊，那这一层啊，它存储的数据量一般比较少，存储一些维度表的数据，OK，那么这个就是我们的一个离线数仓的建模啊好了，那最终啊指标是存储在ADS的，那存储在a eds层，老板跟我们要指标了。啊，那怎么办呢？你说我给老板一个circle语句啊，让老板拿着这个have circle，呃，去as层查呗，那老板肯定开了你啊，哎，老板根本就不懂circle啊，那怎么办呢？我们呢，要通过一个可视化的方式把这个数据查出来，那既然是通过可视化，那你说这个可视化它能直接从ADS层当中查询吗？那也不行，我直接从ADS层查的话，他慢呢，那从have当中查肯定慢，那老板得等半天，那也不太好。那怎么办呢？我们呢，可以先把ADS层的数据再次通过data差每日全量同步到MYSQL表当中，那同步到my circleq表当中，那接下来我们的可视化工具啊，直接从my circleq当中查询数据，那离线输仓的可视化我们用的是super set，哎，直接从my circle当中查询就OK了。
06:24
那最后啊，离线收仓我们还需要一个定时调度的工具啊，Do分schedule，把我们的任务以任务链的形式来进行一个串联，好，那离线输仓我们到这儿来就完事了啊，这是离线输仓的一个架构，那除了离线数仓，我们还要有一个实时数仓，那实时数仓我们是用什么来计算的呀？哎，用flink来计算，那既然是用flink来计算，你说这个用户行为数据。以及业务数据，那我们如何来获取啊，那我直接从MYSQL查，再从文件当中查吗？哎，其实不用，那我们呢，再次分析一下之前那个架构啊，你看那不管是日志文件当中的用户行为数据，还是买circleq的业务数据，是不是都已经发送到卡夫卡当中了呀，那都汇总到了卡夫卡当中了，那我是不是就直接可以从卡夫卡当中拿数据呀，我的令直接从卡夫卡当中拿数据，哎，是可以的，那么卡夫卡的第二个作用在这就体现出来了啊，解耦，哎，这是奇偶，之前呢是消峰，那现在呢，第二个作用传来了，解耦，那也就是说我们的实时数仓也好，还是离线数仓也好，它直接可以从卡夫卡集群当中拿数据，那比方说我们接下来可能还会有一些机器学习呀，还有一些其他的平台呀，那他们依然可以从卡夫卡集群当中。
07:54
拿数据啊，OK。那我们来到实时数仓啊，我们看一看，那实时数仓我们也要进行建模啊啊。
08:03
那实时仓我们也是有这么几层啊，Ods层DMDWDDWS，好，那首先我们来看看呗，Ods层应该在哪呢？那弗林它是直接可以从卡夫卡当中拿数据的，那么我们就直接呀，把ods层放到卡法集群当中，那我们的用户行为数据啊。肯定是存储在卡夫卡的一个topic当中，那么实时数仓的ods层就是卡夫卡的一个topic，好了，那弗林他把ods层的数据给消费出来之后，我们要进行一个数据清洗啊，那清洗完之后我们还要维护一个DWD层，那DWD层我们依然是存储在卡夫卡的一个top当中，哎，存储的另一个top当中了啊好，那这个是ods层和DWD层，那同时我们实时出仓了，也有一个维度层存储一些维度表的，那维度层我们就给它用h base来存储了，OK，那维度层可能有一些数据呢，我们要进行去重，那去重我们是通过red旁路缓存来进行驱重的，OK，那接下来我们的fli它需要维度层数据的时候，那就直接从h base和red当中。
09:29
中来进行查询维度层的数据，哎，那就完事了，那最终啊，我们要进行计算呢，要进行计算我们就来一个DWS层进行一个数据的汇总啊汇总层。那数据的汇总我们用的是可Li house来进行存储的，那Li呢，它把数据又给它写入到可Li house当中，那我们的指标最终怎么计算呢？哎，我们就直接从可Li克house当中来进行计算，好，那最终计算的这个结果我们也是要展示出来的啊，通过一个可视化的平台展示出来，那这个我们应该如何来展示呢？我们要通过一个spring BOO的这么一个外部服务啊，Spring boot它是一个Java的外部服务，然后调用click house，它暴露的一个接口，把我们所需要的指标，诶查询出来啊，聚合出来，聚合出来之后呢，我们通过sugar一个实时的可视化的这么一个工具啊，那就展示出来了，诶这个就是我们实时数仓的一个。
10:44
啊架构啊，OK，那么这个就是我们整个的系统数据的一个流程图，OK，那到这儿我暂停一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之电商数仓5.0

（7/199）

4分8秒

001_离线数仓_课程简介

480

2分38秒

002_数仓概念-数仓简介

420

11分47秒

003_数仓概念-数据分类

360

22分30秒

004_数仓概念-数仓总体介绍

440

4分48秒

005_数仓概念-项目需求分析

530

16分33秒

006_数仓概念-技术选型

400

10分53秒

007_数仓概念-系统数据流程

380

9分59秒

008_数仓概念-框架版本的选择

370

3分18秒

009_数仓概念-具体版本号选择

360

5分35秒

010_数仓概念-服务器选型

390

9分18秒

011_数仓概念-集群规模

460

2分43秒

012_数仓概念-集群资源规划

380

6分22秒

013_同步行为数据模拟-埋点简介

370

17分25秒

014_用户行为数据模拟-用户行为日志内容

380

9分32秒

015_用户行为数据模拟-埋点日志格式

480

15分56秒

016_用户行为数据模拟-克隆三台服务器

370

4分42秒

018_用户行为数据模拟-集群同步脚本

340

7分49秒

019_用户行为数据模拟-免密登录配置

410

8分54秒

020_用户行为数据模拟-安装JDK

380

4分23秒

021_用户行为数据模拟-Linux环境变量说明

270

15分32秒

022_用户行为数据模拟-模拟数据

370

58分32秒

023_用户行为数据采集-hadoop安装

410

20分6秒

024_用户行为数据采集-Hadoop项目经验

440

11分42秒

025_用户行为数据采集-Zookeeper安装

420

14分12秒

026_用户行为数据采集-Kafka安装

400

5分9秒

027_用户行为数据采集-Flume安装

390

35分53秒

028_用户行为数据采集-Flume的KafkaChannel

480

1时11分

029_用户行为数据采集-采集Flume配置

420

10分7秒

030_业务数据采集-电商业务简介

370

38分11秒

031_业务数据采集-电商业务表结构

370

23分27秒

032_业务数据采集-业务数据模拟

380

2分54秒

033_业务数据采集-业务数据通道

450

21分15秒

034_业务数据采集-Maxwell简介

380

33分26秒

035_业务数据采集-Maxwell配置

350

21分19秒

036_业务数据采集-Maxwell使用

350

3分32秒

037_业务数据采集-采集通道maxwell配置

340

2分14秒

038_实时数仓数据同步-实时数仓同步数据

480

3分22秒

039_离线数仓数据同步-用户行为数据同步通道

480

1时8分

040_离线数仓数据同步-用户行为数据同步flume配置

380

29分56秒

041_离线数仓数据同步-业务数据同步策略

410

17分41秒

042_业务数据采集-DataX简介

400

13分4秒

043_业务数据采集-DataX部署

460

58分10秒

044_业务数据采集-DataX案例

470

13分37秒

045_业务数据采集-DataX的HdfsWriter的Null值存储问题

510

9分32秒

046_业务数据采集-DataX参数调优

430

1时7分

047_业务数据采集-全量同步流程

360

46分48秒

048_业务数同步-增量同步流程

330

9分45秒

049_业务数据同步-集群总启停脚本

370

9分0秒

050_业务数据同步-Hive安装部署

360

11分58秒

051-数据仓库-概述

420

37分15秒

052-数据仓库-核心架构

420

19分50秒

053-建模方法论

410

26分52秒

054-建模方法论-ER模型-数据库规范化

440

8分33秒

055-建模方法论-ER模型-函数依赖

450

27分5秒

056-建模方法论-ER模型-三范式

420

18分2秒

057-建模方法论-维度模型-概述

420

8分11秒

058-采集集群-要求

320

23分55秒

059-维度模型-事实表-事务事实表-概述

430

12分22秒

060-维度模型-事实表-事务事实表-设计流程

440

10分44秒

061-维度模型-事实表-事务事实表-不足

420

31分3秒

062-维度模型-事实表-周期快照事实表

460

14分25秒

063-维度模型-事实表-累积快照表

460

15分42秒

064-维度模型-维度表-设计步骤

430

9分1秒

065-维度模型-维度表-确定维度属性-要点

440

9分34秒

066-维度模型-维度表-维度设计要点-规范化&反规范化

400

11分50秒

067-维度模型-维度表-维度设计要点-维度变化-全量表

490

20分6秒

068-维度模型-维度表-维度设计要点-维度变化-拉链表-制作和使用

520

9分17秒

069-维度模型-维度表-维度设计要点-多值维度

580

10分6秒

070-维度模型-维度表-维度设计要点-多值属性

560

6分54秒

071-维度模型-对同步策略的影响

530

27分1秒

072-设计-分层规划

520

23分29秒

073-设计-构建流程

400

26分36秒

074-构建流程-数据调研-业务调研

470

5分18秒

075-构建流程-数据调研-需求分析

480

13分27秒

076-构建流程-划分数据域

610

12分31秒

077-构建流程-构建总线矩阵&维度模型设计

910

31分15秒

078-构建流程-明确统计需求-指标体系

610

23分15秒

079-构建流程-明确统计需求-汇总模型设计思路

500

20分17秒

080-运行环境-说明

380

15分56秒

081-运行环境-Hive-on-spark-编译源码

400

45分20秒

082-运行环境-Hive-on-spark-部署

350

15分1秒

083-开发环境-使用说明

400

10分33秒

084-数据准备-日志

290

22分7秒

085-数据准备-业务-全量&增量

390

4分0秒

086-Hive-on-spark环境问题排查思路

460

12分45秒

087-ODS层-设计要点

400

6分47秒

088-ODS层-日志表-设计思路

290

21分16秒

089-ODS层-日志表-json表

430

23分7秒

090-ODS层-日志表-复杂数据类型

390

14分29秒

091-ODS层-日志表-建表语句

370

4分6秒

092-ODS层-日志表-数据装载

410

13分18秒

093-ODS层-日志表-数据装载脚本

370

21分51秒

094-ODS层-业务表-建表语句-全量&增量

400

16分59秒

095-ODS层-数据装载

430

3分13秒

096-DataGrip元数据显示异常问题说明

400

8分51秒

097-DIM层-维度模型规划

400

7分35秒

098-DIM层-设计要点

360

16分6秒

099-DIM层-商品维度表-确定主维表和相关维表

480

43分39秒

100-DIM层-商品维度表

450

100

32分42秒

101-DIM层-优惠券维度表

360

101

13分3秒

102-Hive元数据中文乱码问题说明

450

102

12分7秒

103-DIM层-活动维度

360

103

10分56秒

104-DIM层-地区维度

440

104

28分6秒

105-DIM层-日期维度

480

105

18分59秒

106-DIM层-用户维度-拉链表-建表语句

370

106

23分37秒

107-DIM层-用户维度-拉链表-数据装载-首日

450

107

53分13秒

108-DIM层-用户维度-拉链表-数据装载-每日-思路一

510

108

15分25秒

109-DIM层-用户维度-拉链表-数据装载-每日-思路二

430

109

12分5秒

110-DIM层-数据装载

380

110

8分2秒

111-DWD层-设计要求

420

111

12分51秒

112-DWD层-交易域加购事务事实表-建表语句

430

112

12分1秒

113-DWD层-交易域加购事务事实表-数据流向

470

113

9分10秒

114-DWD层-交易域加购事务事实表-数据装载-首日

400

114

32分20秒

115-DWD层-交易域加购事务事实表-数据装载-每日

380

115

24分31秒

116-DWD层-Hiveserver2-文件描述符问题说明

350

116

15分20秒

117-DWD层-交易域下单事实表

410

117

24分48秒

118-DWD层-交易域下单事实表-数据装载-首日和每日

470

118

8分40秒

119-DWD层-交易域取消订单事实表-建表语句

380

119

28分17秒

120-DWD层-交易域取消订单事实表-数据装载-首日和每日

370

120

21分26秒

121-DWD层-交易域支付成功事实表-建表语句

370

121

20分17秒

122-DWD层-交易域支付成功事实表-数据装载-首日和每日

430

122

22分31秒

123-DWD层-交易域退单事实表

380

123

24分46秒

124-DWD层-交易域退款成功事实表

350

124

18分13秒

125-DWD层-交易域购物车周期快照表

440

125

28分10秒

126-DWD层-工具域优惠券业务分析

440

126

10分58秒

127-DWD层-互动域收藏商品事务事实表

470

127

18分39秒

128-DWD层-互动域评价事务事实表

330

128

24分23秒

129-DWD层-流量域页面浏览事务事实表-建表语句

370

129

53分12秒

130-DWD层-流量域页面浏览事务事实表-数据装载

440

130

9分3秒

131-DWD层-流量域启动事务事实表

440

131

24分28秒

132-DWD层-流量域动作事务事实表

390

132

8分45秒

133-DWD层-流量域曝光事务事实表

420

133

20分48秒

134-DWD层-流量域错误事务事实表

360

134

34分6秒

135-DWD层-用户域用户注册事实表

400

135

23分27秒

136-DWD层-用户域用户登录事实表

490

136

2分39秒

137-DWD层-维度模型-小总结

410

137

7分59秒

138-DWD层-数据装载

310

138

35分4秒

139-DWS层-设计要点

410

139

19分6秒

140-DWS层-设计-构建指标体系

530

140

5分33秒

141-DWS层-设计-抽取派生指标

430

141

38分25秒

142-DWS层-设计-最近1日n日汇总表

460

142

14分43秒

143-DWS层-设计-人数重复计算问题-最近1日n日汇总表

470

143

29分9秒

144-DWS层-设计方案-设计V2.0

460

144

17分1秒

145-DWS层-设计方案-设计V3.0

390

145

16分42秒

146-DWS层-设计-历史至今-汇总表分析

370

146

31分10秒

147-DWS层-设计-历史至今-数据装载

390

147

7分3秒

148-DWS层-设计-总结

400

148

18分15秒

149-DWS层-交易域用户商品粒度订单最近1日汇总表

370

149

6分27秒

150-DWS层-交易域用户商品粒度订单最近n日汇总表

470

150

7分5秒

151-DWS层-交易域用户商品粒度退单最近1日和n日汇总表

440

151

10分6秒

152-DWS层-交易域用户粒度订单汇总表

460

152

5分26秒

153-DWS层-交易域用户粒度加购汇总表

320

153

3分46秒

154-DWS层-交易域用户粒度支付汇总表

430

154

6分42秒

155-DWS层-交易域省份粒度订单汇总表

390

155

7分11秒

156-DWS层-交易域用户粒度退单汇总表

440

156

11分29秒

157-DWS层-流量域会话粒度页面浏览最近1日汇总表

340

157

6分59秒

158-DWS层-流量域访客页面粒度页面浏览汇总表

390

158

38分29秒

159-DWS层-交易域优惠券粒度订单最近n日汇总表

330

159

9分15秒

160-DWS层-交易域活动粒度订单最近n日汇总表

420

160

6分27秒

161-DWS层-交易域用户粒度订单历史至今汇总表

460

161

2分34秒

162-DWS层-交易域用户粒度支付历史至今汇总表

410

162

17分3秒

163-DWS层-用户域用户粒度登录历史至今汇总表

520

163

15分9秒

164-DWS层-数据装载-最近1日n日历史至今

380

164

1时8分

165-ADS层-各渠道流量统计

360

165

27分8秒

166-ADS层-用户路径

370

166

23分41秒

167-ADS层-用户路径-需求实现

360

167

9分6秒

168-ADS层-用户变动统计-需求说明

350

168

13分33秒

169-ADS层-用户留存率-需求说明

260

169

19分46秒

170-ADS层-用户变动统计-需求实现

350

170

28分41秒

171-ADS层-用户留存率-需求实现-2种思路

310

171

2分41秒

172-ADS层-用户新增活跃统计-需求说明

420

172

13分45秒

173-ADS层-新增活跃用户统计-需求实现

450

173

7分55秒

174-ADS层-漏斗分析-需求说明

380

174

3分15秒

175-ADS层-新增交易用户统计-需求说明

350

175

5分34秒

176-ADS层-品牌复购率-需求说明

270

176

40分39秒

177-ADS层-漏斗分析-需求实现

320

177

8分23秒

178-ADS层-新增交易用户统计-需求实现

350

178

25分58秒

179-ADS层-品牌复购率-需求分析

310

179

2分45秒

180-ADS层-各品牌交易统计-需求说明

390

180

4分15秒

181-ADS层-购物车存量topN-需求说明

380

181

4分4秒

182-ADS层-交易综合统计-需求说明

310

182

25分10秒

183-ADS层-各品牌交易统计-需求实现

330

183

11分58秒

184-ADS层-购物车存量topN-需求实现

340

184

11分46秒

185-ADS层-交易综合统计-需求实现

350

185

7分25秒

186-ADS层-各省份交易综合统计

380

186

3分22秒

187-ADS层-补贴率统计

380

187

3分18秒

188-ADS层-数据装载

390

188

1时8分

189-报表数据导出-DataX

360

189

33分42秒

190-全流程调度-DS-核心架构

320

190

16分1秒

191-全流程调度-DS-部署模式及要求

420

191

16分4秒

192-全流程调度-DS-部署-数据库初始化

400

192

35分25秒

193-全流程调度-DS-部署-一键部署

490

193

27分10秒

194-全流程调度-DS-使用-安全中心

370

194

36分26秒

195-全流程调度-DS-使用-入门

530

195

1时15分

196-全流程调度-DS-使用-进阶

350

196

1时4分

197-全流程调度-集群模式&单机模式

400

197

1时1分

198-可视化-Suserset-安装部署

400

198

30分25秒

199-可视化-Suserset-完整流程

450

199

7分40秒

200-可视化-Suserset-完结

390

007_数仓概念-系统数据流程

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐