文章/答案/技术大牛

发布

首页视频002 - 简介 - 离线计算

002 - 简介 - 离线计算

2022-12-022022-12-02 16:02:22播放34

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据Spark实时项目Spark Streaming/视频/002 - 简介 - 离线计算.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那我们今天啊，先说这个第一个文档啊，就是ODS到DWD。的一个处理啊，那么这个我们主要做的就是数据的采集和这个分流操作啊，我们把它打开。OK啊，来吧，呃，我们一起来这个看一看啊呃，然后我们这个第一层的话呢，主要做的事情呢，就是数据的这个采集和这个分流啊，就是我们要研究的就是你的数据呢，是从哪来的。对不对，你是一个实施项目，那你这个处理的数据哪里来的，那你数据来了以后呢，你应该做什么处理。那肯定我不能够什么直接去用啊，我一定要什么先把这个处理数据呢，去做一些什么转换啊，做一些什么这个拆分啊，该聚合的做一些聚合啊，所以说我们这个第一个文档，我们主要完成的是采集和分流啊，啊来看一下这个章节啊。
01:01
呃，第一章的话，我们做简介啊，简介就是给大家去介绍一下这个实施项目。是吧，那你得首先知道这个什么叫做实时呀，啊，那你知道了以后呢，我们再去这个做具体的工作啊好，那我们这个具体的工作呢，有两个，一个是日志数据的采集和分流，一个是业务数据的采集和分流，啊那就说白了，我们，呃，在这个实时项目中，我们所处理的数据呢，跟大家这个离线啊，离线那个数仓当中处理的数据是一样的。啊，也是两种类型，一种是日志数据，一种是业务数据。对吧，大家在离线的时候呢，也是把他们两个这个单独去做了这个处理，然后我们在这个事实中呢，也是把他们两个的这个单独来去做这个处理啊，先去处理这个日志的，然后再去处理这个业务的，对吧？啊行呃，那整体就是三章的内容啊，然后这个第四章总结的话呢，是到时候这个要求大家自己去做总结啊，说这个第四章我是没有给任何东西的啊，需要你自己去做一些总结的啊，等我们讲完以后。好吧，那我们先从这个第一章来说起啊，呃，第一章的话呢，我们主要是简介啊，主要就是给大家去介绍一下这个，呃，计算的这个方式啊，有什么离线计算啊，对吧，有什么这个实时计算啊啊，他们之间的这个区别是什么啊，怎么就去定位一个它是离线计算了啊，怎么就定位它是一个实时计算了啊把这个大家知道一下啊，然后再一块内容就是数仓架构的一个设计。
02:26
OK吧，好，那这个离线架构呢，我们是怎么设计的，然后现在我们做的这个实时的这个架构应该怎么去设计。好吧，好，那把这个介绍完成以后呢，最后一个就是项目的需求啊，就是给大家去简单展示一下我们整个这个实施项目啊，我们最终要做成一个什么效果。就是你心里面有个有个样子对吧，别这个学了好几天了，你都不知道我们干什么事儿啊，那不好啊行吧，来先来看这个第一小节啊，就是离线计算。呃，这个离线计算啊，呃，大家应该都还是比较清楚的啊，因为你毕竟都已经搞过一个项目了，对吧，说对这个离线计算的一个理解呢，还是比较到位的啊好，那我们一起来看一看吧，这个所谓的离线计算啊，那一般我们都是通过批处理的方式来去做的。
03:13
就是离线计算啊，一般都对应的是P。能听到吧，离线计算一般对应的都是批处理啊，就是我们这个批次啊，就是一批数据，一批数据的什么进行这个处理。OK吧，而且呢，呃，它这个处理的数据呢，都是已知的数据，想到这个已知的数据呢，就说白了，我的这个数据呢，给你放到这儿了，放到这以后呢，这个数据呢，它就是一个静态的数据啊，静态的数据我是不会怎么再去动的了。能明白吧，然后呢，输入的数据呢，是不会什么产生变化的。啊，那你就想一下，你们在这个离线数当中，你们是不是在每天的这个就是凌晨对不对啊，就比如说这个零点以后啊，零点以后，然后呢，开始去什么计算你这个昨天的数据，那你就想吧，今天晚上的这个0.1过。
04:00
对吧，那我这个昨天的数据呢，就已经什么不再会什么发生变化了，好吗？那我就什么把它拿过来，然后呢，开始什么去做这个理想处理，那你就想想吧，这个数据是不是一个已知的所有的这个输入数据啊。对吧，这个数据是不会什么产生变化的。啊，这是我们这个离线计算啊，然后呢，这个离线计算啊，一般这个计算的量级是比较大的，而且计算这个时间是比较长的。啊，那为什么量级大呢，因为你。攒够了这个一天的数据了，对吧，就拿我们做了这个离线生产来讲啊，你都攒够了这个一天的数据了，那这个一天的数据对于一些这个比较大型的公司来讲，那个数据量是超级超级大的啊，所以一般什么量级是比较大的。那当然我们计算的时间呢，也就会比较长，因为你数据多呀，对吧，你数据多，你出的这个指标还多啊，那我计算的时间肯定就会比较长。对不对啊，但是还好啊，因为我们的离线计算对时效性的这个要求基本上是没有的，就你这个算的快一点啊，或者说你这个算的慢一点啊，反正我都是能够接受的啊，所以这个时间对于这个离线技来讲啊，应该都不是一个问题，你就长一点也无所谓啊，关键是你要把把它怎么能勾什么计算出来啊，这才是最重要的啊。
05:13
OK啊呃，例如说啊，我们这个就刚刚讲的啊，你这个凌晨一点的时候，然后呢，把这个昨天累计的这个日志呢，计算出这个所需的结果啊，这就是所谓的一个什么离线计算，那我们这个比较经典的这个方式呢，就是使用哈多普的这个MR的方式来去做计算。对吧，虽然说啊，我们在这个之前的这个离线收摊里面，我们用的是这个Spark引擎，对不对。对吧，同学们啊，就是你没有直接去使用这个好多的MR，因为这个东西你用起来很不方便啊，那我们肯定采用这个have来去做。对不对，我能写so狗，那我肯定就不想写代码呀啊，所以我们什么通过这个have里面这个搜狗的方式，然后呢，去做这个离线处理啊，那你这个搜狗执行的话呢，你就有什么多种引擎了啊，你可以使用MR，可以什么使用这个Spark对吧，当然还有什么别的，比如说什么T什么的都可以。
06:05
是不是啊，都可以啊，那大家应该选择的是这个Spark引擎啊，因为它呃基于内存算嘛啊，相对来讲这个算的会更加的快一点啊，比这个MR肯定要升快一点啊，但是大家注意啊，你甭管是这个MR也好，T也好，这个Spark也好，它的核心其实还是MR。对吧，思想还是MR的一个思想。能听懂吧，好，然后这个一般情况下这个离线计算哈，我们要根据什么前一日的这个数据呢，去生成很多报表。啊，出很多报表，或者说你要做这个可视化的话，那叫什么，出很多这个图表。对不对，然后呢，统计的这个指标呢，报表是比较多的啊，离线计算啊，统计的东西就是比较多，动不动就好几百个这个上百个，好几百个这个指标，让你需要去让你去做这个统计。对吧，啊，不过好在呃，我们一开始把它这个设计好以后，对吧，你都把它就编排成这个任务以后，反正每天晚上你自己去跑呗，我也不用这个人人为值守。
07:04
对吧，你晚上你就什么自己跑起来，然后呢，等到这个第二天我上班的时候呢，我看到这个结果就行了啊说这个指标多与多与少啊，就是你在这个开发的时候呢，可能会周期长一点，但是呢，你把它这个开发好以后呢，呃，就基本上就不需要你再去管了啊，他每天晚上自己跑任务跑完就完事了。好，对这个时效性的不敏感啊，这是我们这个离线计算啊。好，那我们简单总结一下这个特点啊，它的特点就是第一个数据呢，在这个计算前呢，就已经全部就位了啊，它是什么不会这个发生变化的。对吧？啊，再一个呢，数据量大且保存的时间长啊，就是呃，一般我们这个离线的数据，我们这个保存的时间都会比较长啊，你比如说你放到那个什么have中啊，你放到have中不就是放到这个HDFS的嘛，对吧？哎，这个数据我们一般都是永久性给它存储下来的啊，所以这个保存时间也比较长啊。好，然后呢，呃，这个离线计算啊，我们会在什么大量的数据上进行这个复杂的这个批量运算。
08:03
啊，这个批量运算啊，这肯定是必然的啊，那么这个复杂不复杂呢？诶就得看你们这个指标是什么样子的了啊，你算的这个指标难不难，如果说你这个算的这个指标是比较复杂的，那我的这个计算啊就会比较难，就会比较复杂啊，可能会做什么各种各样的运运算啊。OK，然后再一个是这个比较方便的查看这个批量计算的一个结果啊，那这个就很方便了呀，因为你们都做好了呀，要要不然出的是报表。对吧，给你导出什么导出这个报表啊，导成什么这个Excel对吧，或者什么导成什么别的格式的一些报表，要么呢，就是我给你做了一个什么大屏展示。对吧，出一个大屏啊，大屏上面什么各种图表，什么饼状图对吧，什么这个柱状图是吧，什么这个折线图啊，什么什么中国地图。是吧，啊就各种图表，然后呢，一一个什么大屏全部给你展示出来。那这个结果我查看起来肯定什么非常方便的。是不是啊，所以这就是这个离线计算啊，它的一些这个特点啊，这些的话就是给大家这个简单过一下啊，因为你们都已经呃做过一个项目了啊，我就不再展开来给你去说了啊，大家这个心里面应该都是很清楚的。
09:12
啊，那我们这个重点的话呢，还是想去说一下这个，呃，实时计算啊，因为这个才是我们目前的一个主角。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据Spark实时项目Spark Streaming

（2/155）

6分42秒

001 - 简介 - 项目介绍

500

9分18秒

002 - 简介 - 离线计算

340

25分51秒

003 - 简介 - 实时计算

450

11分47秒

004 - 简介 - 离线架构

400

18分16秒

005 - 简介 - 实时架构

430

6分3秒

006 - 简介 - 项目需求

390

5分9秒

007 - 日志数据采集分流 - 整体架构

460

10分4秒

008 - 日志数据采集分流 - 采集到数据

430

10分59秒

009 - 日志数据采集分流 - 生成数据脚本

430

13分21秒

010 - 日志数据采集分流 - Kafka脚本

430

9分21秒

011 - 日志数据采集分流 - 准备工程环境

430

32分39秒

012 - 日志数据采集分流 - Kafka工具类 - 1

380

16分44秒

013 - 日志数据采集分流 - Kafka工具类 - 2

410

10分7秒

014 - 日志数据采集分流 - 配置工具类

390

25分44秒

015 - 日志数据采集分流 - 消费到数据

320

17分25秒

016 - 日志数据采集分流 - 分流 - 1

350

21分50秒

017 - 日志数据采集分流 - 分流 - 2

410

12分47秒

018 - 日志数据采集分流 - 分流 - 3

370

6分2秒

019 - 提gitee

330

20分34秒

020 - 回顾

330

21分53秒

021 - 日志数据采集分流 - 分流 - 完成

310

14分56秒

022 - 日志数据采集分流 - 精确一次消费 - 分析问题

360

11分57秒

023 - 日志数据采集分流 - 精确一次消费 - 事务方案

440

19分49秒

024 - 日志数据采集分流 - 精确一次消费 - 后置提交加幂等方案

350

14分22秒

025 - 日志数据采集分流 - 精确一次消费 - Redis工具类

300

16分25秒

026 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 1

400

17分47秒

027 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 2

330

9分24秒

028 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 3

440

20分4秒

029 - 日志数据采集分流 - 精确一次消费 - 完成

250

6分45秒

030 - 日志数据采集分流 - 精确一次消费 - 总结

330

13分21秒

031 - 日志数据采集分流 - Kafka缓冲区问题 - 分析问题

340

24分24秒

032 - 日志数据采集分流 - Kafka缓冲区问题 - 解决问题

350

15分11秒

033 - 业务数据采集分流 - 架构分析

430

10分21秒

034 - 业务数据采集分流 - MaxWell工作原理

310

16分28秒

035 - 业务数据采集分流 - binlog格式

470

9分28秒

036 - 业务数据采集分流 - 安装Maxwell和MySQL

440

14分50秒

037 - 业务数据采集分流 - 采集完成

460

23分3秒

038 - 回顾

370

19分48秒

039 - 业务数据采集分流 - 分流 - 消费到数据

370

25分38秒

040 - 业务数据采集分流 - 分流 - 事实数据

440

21分55秒

041 - 业务数据采集分流 - 分流 - 维度数据 - 1

390

9分0秒

042 - 业务数据采集分流 - 分流 - 维度数据 - 2

320

4分15秒

043 - 业务数据采集分流 - 分析问题

350

16分47秒

044 - 业务数据采集分流 - 解决问题 - 历史维度引导

450

9分31秒

045 - 业务数据采集分流 - 解决问题 - Redis连接

300

13分18秒

046 - 业务数据采集分流 - 解决问题 - 动态表清单 - 1

350

21分33秒

047 - 业务数据采集分流 - 解决问题 - 动态表清单 - 2

370

28分46秒

048 - 业务数据采集分流 - 数据处理顺序性

410

10分42秒

049 - ODS到DWD - 总结

450

15分2秒

050 - DWD到DWD - 分析(1)

410

15分2秒

050 - DWD到DWD - 分析

290

7分3秒

051 - 日活宽表 - 任务分析

320

13分28秒

052 - 日活宽表 - 消费到数据

340

15分42秒

053 - 日活宽表 - 去重 - 分析

410

11分42秒

054 - 日活宽表 - 去重 - 自我审查

410

18分57秒

055 - 回顾

360

21分38秒

056 - 日活宽表 - 去重 - 第三方审查 - 1

410

33分53秒

057 - 日活宽表 - 去重 - 第三方审查 - 2

320

10分19秒

058 - 日活宽表 - 维度关联 - 分析

400

23分4秒

059 - 日活宽表 - 维度关联 - 对象属性拷贝

370

7分3秒

060 - 日活宽表 - 维度关联 - 关联用户维度信息

350

15分20秒

061 - 日活宽表 - 维度关联 - 关联地区维度信息

330

6分26秒

062 - 日活宽表 - 维度关联 - 空指针异常问题

320

9分23秒

063 - 订单宽表 - 分析

370

25分43秒

064 - 订单宽表 - 消费到数据

330

18分8秒

065 - 订单宽表 - 维度关联

410

20分56秒

066 - 订单宽表 - 双流join - 内连接

350

13分53秒

067 - 订单宽表 - 双流join - 数据延迟问题

380

23分37秒

068 - 订单宽表 - 双流join - 数据延迟解决方案

550

22分4秒

069 - 回顾

400

17分54秒

070 - 订单宽表 - 双流join - 缓存方案 - 1

430

20分42秒

071 - 订单宽表 - 双流join - 缓存方案 - 2

420

10分31秒

072 - 订单宽表 - 双流join - 缓存方案 - 3

360

12分25秒

073 - ES - 简介

410

8分32秒

074 - ES - 使用场景

420

20分31秒

075 - ES - 常用存储框架比较

300

25分46秒

076 - ES - 特点

300

10分49秒

077 - ES - 安装 - 修改操作系统参数

450

19分36秒

078 - ES - 安装 - 安装启动

340

17分10秒

079 - ES - 安装 - 集群启停脚本

390

24分40秒

080 - ES - 安装 - 安装Kibana

360

12分22秒

081 - ES - DSL - 名词解释

430

17分39秒

082 - ES - DSL - 服务状态查询

280

28分34秒

083 - 回顾

390

18分10秒

084 - ES - DSL - ES存储的数据结构

400

23分56秒

085 - ES - DSL - 数据操作 - 1

260

25分47秒

086 - ES - DSL - 数据操作 - 2

450

11分13秒

087 - ES - DSL - 数据操作 - 3

390

15分27秒

088 - ES - DSL - 数据操作 - 4

340

14分12秒

089 - ES - DSL - 数据操作 - 5

390

12分49秒

090 - ES - DSL - 数据操作 - 6

360

15分47秒

091 - ES - DSL - 数据操作 - 7

430

13分14秒

092 - ES - DSL - 数据操作 - 8

380

10分10秒

093 - ES - DSL - SQL的使用

320

19分13秒

094 - ES - DSL - 中文分词 - 1

340

8分7秒

095 - ES - DSL - 中文分词 - 2

380

11分14秒

096 - ES - DSL - 索引分割

410

25分4秒

097 - ES - DSL - 索引别名

460

16分43秒

098 - ES - DSL - 索引模板

380

100

29分21秒

099 - 回顾

390

101

11分49秒

100 - ES - 读写原理 - 写流程

310

102

4分53秒

101 - ES - 读写原理 - 读流程

390

103

8分57秒

102 - ES - 读写原理 - 搜索流程

450

104

11分54秒

103 - ES - 读写原理 - 并发写控制

420

105

19分14秒

104 - ES - Shard与段 - Shard数量

320

106

29分8秒

105 - ES - Shard与段 - 段合并

310

107

16分10秒

106 - ES - 客户端 - 准备环境

340

108

13分29秒

107 - ES - 客户端 - 单条写入

340

109

10分7秒

108 - ES - 客户端 - 批量写入

350

110

27分9秒

109 - ES - 客户端 - 修改

300

111

6分30秒

110 - ES - 客户端 - 基于id删除和查询

390

112

20分45秒

111 - ES - 客户端 - 条件查询

340

113

20分23秒

112 - ES - 客户端 - 聚合查询

350

114

14分54秒

113 - 日活宽表 - ES工具类

340

115

16分41秒

114 - 日活宽表 - 写入ES

370

116

3分23秒

115 - 日活宽表 - 作业

360

117

23分10秒

116 - 回顾

330

118

13分46秒

117 - 订单宽表 - 写入ES

370

119

8分41秒

118 - 日活宽表 - 状态问题

390

120

12分26秒

119 - 日活宽表 - 状态还原 - 1

300

121

22分37秒

120 - 日活宽表 - 状态还原 - 2

370

122

6分8秒

121 - DWD到DWS - 总结

400

123

6分35秒

122 - 应用层 - 简介

360

124

10分8秒

123 - 应用层 - Kibana - 配置渠道日活

460

125

12分16秒

124 - 应用层 - Kibana - 配置热力地图

470

126

8分6秒

125 - 应用层 - Kibana - 配置大盘

500

127

15分53秒

126 - 应用层 - SpringBoot - web服务介绍

370

128

22分10秒

127 - 应用层 - SpringBoot - 技术发展过程

370

129

6分13秒

128 - 应用层 - SpringBoot - 简介

390

130

9分58秒

129 - 应用层 - SpringBoot - 初始搭建

350

131

12分6秒

130 - 应用层 - SpringBoot - 开发分层

440

132

11分40秒

131 - 应用层 - SpringBoot - 请求打通

430

133

9分37秒

132 - 应用层 - SpringBoot - 请求参数 - 1

320

134

10分54秒

133 - 应用层 - SpringBoot - 请求参数 - 2

300

135

10分29秒

134 - 应用层 - SpringBoot - 请求参数 - 3

370

136

16分16秒

135 - 应用层 - SpringBoot - 请求参数 - 4

300

137

17分8秒

136 - 回顾

330

138

7分14秒

137 - 应用层 - SpringBoot - 请求方式

330

139

12分16秒

138 - 应用层 - SpringBoot - 状态码

380

140

30分32秒

139 - 应用层 - SpringBoot - 业务层

320

141

8分58秒

140 - 应用层 - SpringBoot - 数据层

330

142

10分14秒

141 - 应用层 - 日活实时监控接口 - 接口介绍

380

143

5分29秒

142 - 应用层 - 日活实时监控接口 - 搭建环境

410

144

14分46秒

143 - 应用层 - 日活实时监控接口 - 测试连通

370

145

15分29秒

144 - 应用层 - 日活实时监控接口 - 查询总数

400

146

13分44秒

145 - 应用层 - 日活实时监控接口 - 查询分时明细

320

147

5分22秒

146 - 应用层 - 日活实时监控接口 - 对接前端页面

400

148

15分16秒

147 - 应用层 - 灵活查询接口 - 测试连通

400

149

25分58秒

148 - 应用层 - 灵活查询接口 - 类别统计 - 1

380

150

11分44秒

149 - 应用层 - 灵活查询接口 - 类别统计 - 2

410

151

22分31秒

150 - 应用层 - 灵活查询接口 - 明细查询 - 1

370

152

8分10秒

151 - 应用层 - 灵活查询接口 - 明细查询 - 2

360

153

22分33秒

152 - 总结 - 1

350

154

13分37秒

153 - 总结 - 2

350

155

18分47秒

154 - 总结 - 3

400

002 - 简介 - 离线计算

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐