文章/答案/技术大牛

发布

首页视频007 - 日志数据采集分流 - 整体架构

007 - 日志数据采集分流 - 整体架构

2022-12-022022-12-02 16:02:22播放46

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据Spark实时项目Spark Streaming/视频/007 - 日志数据采集分流 - 整体架构.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:01
好，那接下来我们就开始进入到我们这个项目的一个处理过程了啊呃，那首先我们先讲的是日志数据的这个采集和分流啊，因为我们是分了两种数据的啊，一种是这个日志数据，那么还有一种是我们的业务数据啊，这个我就不再多介绍。那行吧啊，因为大家是做过离线收仓的啊，对这个数据的种类应该是很清楚的啊，我们先来说这个日志数据的采集和分流啊，呃，那上来以后还是先去介绍一下我们这个整体的一个架构，就是我们在这个环节中，我们的数据的一个什么处理的流程是什么样子的。对吧，来看一下啊，给了一个图。好，呃，首先啊，现在我们的数据呢，就假设啊，我们的数据是放到这个日志文件中的。能理解吧，啊，假设是放到这个日志文件中的，那如果你数据放到日志文件中的话呢，那我将来就要什么通过这个去做一个采集了。对吧，那采集的话采到什么地方呢？肯定踩到你的卡不卡呀。对不对，所以说首先啊，我们要先完成的是一个采集工作，就是要把你的日志数据呢，想办法给他什么采集到我的卡发卡中。
01:07
然后呢，先放到一个统一的一个topic中，就只要你是日志数据，我就往这个topic里面去放。能明白吧，只要你是日志数据，我就往topic里面去放。好，那么这个是基于你的这个日志文件来去做的，好呃，那我需要说一下我们目前是怎么做的啊，因为我们是通过这个数据的一个生成器来去生成数据的，对不对。能听懂吧，同学们啊，我们是要什么通过这个数据的一个什么生成器，然后呢，去这个生成数据的。好，所以说我们在这个生成数据的时候呢，我们可以选择把数据呢，先生成到你的日志文件中。啊，可以选择先把数据呢生成到日志文件中，然后呢，也可以选择直接把数据就生成到你的卡夫卡中。那么这样的方案啊，第一种方案就是如果说你把数据放到你的日志文件中了，那就相当于我们需要走一下的采集过程啊，如果说我的数生成进呢，直接把数据生成到你的卡不卡了，这就是我说的那个直发的方式啊，我直接就把数据呢发到你的卡不卡就省了采集的过程。
02:13
OK吧，好，那我们目前我们选择的是第二种，就是我们那个生成器，大家这个之前所使用那个生成器，它是可以什么直接把数据发到卡不卡的。OK吧，啊，这个事情你要知道啊，行呃，数据发到卡夫卡以后，接下来就是我们这个核心的处理了啊，那你的采集工作就完成，完成以后下面就是通过我们的Spark streaming，然后呢，进行这个处理。那我需要从你的卡不卡中把数据呢拿出来。能听懂吧，哎，把数据拿出来，拿出来了以后。接下来我们就要做分流了。啊，现在我们主要任务就采集和分流，采集完成下面就是分流，怎么分流呢？对于我们的日志数据来讲啊，大家应该都还记得我们的日志数据呢，分两种，一种是页面访问对吧，一种是这个启动数据。
03:02
对不对，好，那启动的话呢，我们将来就什么直接把这个启动呢，放到一个启动的一个topic里面就可以了，好，那这个页面访问的话，那就包含比较多了哈，对吧，有什么有你的这个页面数据啊，有你的这个呃曝光数据对吧，有你的事件数据。是不是啊，等等一些有好几个，那我们需要把这个呢，单独都拆出来，然后呢，放到不同的这个topic中，那么将来的话呢，你在用的时候，诶，想用页面访问，你就找页面访问的topic，你想用曝光的，OK，那你就找曝光的topic，就是给它拆成什么具体的这个明细啊，所以你看接下来我们的操作就是拆出来，那么拆出来以后，你这数据往哪放呢？我们还是往卡夫卡里面去放，作为一个什么中间数据处理过程的一个什么存储介质。好吧，你看啊，像你的启动我就放到什么启动的这个topic里面，像你的页面访问，我就放到页面访问的topic，那你的动作就放到动作里面，你的曝光就放到曝光里面，还有一个是你的错误数据，那我就放到错误的这个topic里面。
04:01
就是相当于我们分流到诶不同的topic中啊，从一个统一的topic把数据拿出来，然后呢，再分流到诶不同的topic中。明白这个过程吧，好，那你放到这个统一的这个topic中，它就是我们的ods层，那我做完分流以后呢，这个其实就是我们的DWD层了。就说白了，就是大家这个所谓的什么明细成了。对吧，你看这个是不是已经相当于很明细了呀，就是你的，诶每一种数据我们是放在了不同的topic中，以前你们是表对吧，现在我们是topic。其实都是一个道理。OK吧，那么这就是我们，诶，在这个日志数据的采集分流中，我们。要做的事啊，这就它的架构。还是很清晰的吧。对吧，先搞定采集，然后呢，再通过steming呢，把数据拿过来，通过代码的方式呢，把数据给它分开，分到不同的topic中就完事。好吧，把这个图记到你的脑子里面，然后接下来我们在处理的过程中，哪个环节你想不清楚了，你就回头去看看这个图。
05:05
OK吧，行啊，我们先说这么多。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据Spark实时项目Spark Streaming

（7/155）

6分42秒

001 - 简介 - 项目介绍

500

9分18秒

002 - 简介 - 离线计算

340

25分51秒

003 - 简介 - 实时计算

450

11分47秒

004 - 简介 - 离线架构

400

18分16秒

005 - 简介 - 实时架构

430

6分3秒

006 - 简介 - 项目需求

390

5分9秒

007 - 日志数据采集分流 - 整体架构

460

10分4秒

008 - 日志数据采集分流 - 采集到数据

430

10分59秒

009 - 日志数据采集分流 - 生成数据脚本

430

13分21秒

010 - 日志数据采集分流 - Kafka脚本

430

9分21秒

011 - 日志数据采集分流 - 准备工程环境

430

32分39秒

012 - 日志数据采集分流 - Kafka工具类 - 1

380

16分44秒

013 - 日志数据采集分流 - Kafka工具类 - 2

410

10分7秒

014 - 日志数据采集分流 - 配置工具类

390

25分44秒

015 - 日志数据采集分流 - 消费到数据

320

17分25秒

016 - 日志数据采集分流 - 分流 - 1

350

21分50秒

017 - 日志数据采集分流 - 分流 - 2

410

12分47秒

018 - 日志数据采集分流 - 分流 - 3

370

6分2秒

019 - 提gitee

330

20分34秒

020 - 回顾

330

21分53秒

021 - 日志数据采集分流 - 分流 - 完成

310

14分56秒

022 - 日志数据采集分流 - 精确一次消费 - 分析问题

360

11分57秒

023 - 日志数据采集分流 - 精确一次消费 - 事务方案

440

19分49秒

024 - 日志数据采集分流 - 精确一次消费 - 后置提交加幂等方案

350

14分22秒

025 - 日志数据采集分流 - 精确一次消费 - Redis工具类

300

16分25秒

026 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 1

400

17分47秒

027 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 2

330

9分24秒

028 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 3

440

20分4秒

029 - 日志数据采集分流 - 精确一次消费 - 完成

250

6分45秒

030 - 日志数据采集分流 - 精确一次消费 - 总结

330

13分21秒

031 - 日志数据采集分流 - Kafka缓冲区问题 - 分析问题

340

24分24秒

032 - 日志数据采集分流 - Kafka缓冲区问题 - 解决问题

350

15分11秒

033 - 业务数据采集分流 - 架构分析

430

10分21秒

034 - 业务数据采集分流 - MaxWell工作原理

310

16分28秒

035 - 业务数据采集分流 - binlog格式

470

9分28秒

036 - 业务数据采集分流 - 安装Maxwell和MySQL

440

14分50秒

037 - 业务数据采集分流 - 采集完成

460

23分3秒

038 - 回顾

370

19分48秒

039 - 业务数据采集分流 - 分流 - 消费到数据

370

25分38秒

040 - 业务数据采集分流 - 分流 - 事实数据

440

21分55秒

041 - 业务数据采集分流 - 分流 - 维度数据 - 1

390

9分0秒

042 - 业务数据采集分流 - 分流 - 维度数据 - 2

320

4分15秒

043 - 业务数据采集分流 - 分析问题

350

16分47秒

044 - 业务数据采集分流 - 解决问题 - 历史维度引导

450

9分31秒

045 - 业务数据采集分流 - 解决问题 - Redis连接

300

13分18秒

046 - 业务数据采集分流 - 解决问题 - 动态表清单 - 1

350

21分33秒

047 - 业务数据采集分流 - 解决问题 - 动态表清单 - 2

370

28分46秒

048 - 业务数据采集分流 - 数据处理顺序性

410

10分42秒

049 - ODS到DWD - 总结

450

15分2秒

050 - DWD到DWD - 分析(1)

410

15分2秒

050 - DWD到DWD - 分析

290

7分3秒

051 - 日活宽表 - 任务分析

320

13分28秒

052 - 日活宽表 - 消费到数据

340

15分42秒

053 - 日活宽表 - 去重 - 分析

410

11分42秒

054 - 日活宽表 - 去重 - 自我审查

410

18分57秒

055 - 回顾

360

21分38秒

056 - 日活宽表 - 去重 - 第三方审查 - 1

410

33分53秒

057 - 日活宽表 - 去重 - 第三方审查 - 2

320

10分19秒

058 - 日活宽表 - 维度关联 - 分析

400

23分4秒

059 - 日活宽表 - 维度关联 - 对象属性拷贝

370

7分3秒

060 - 日活宽表 - 维度关联 - 关联用户维度信息

350

15分20秒

061 - 日活宽表 - 维度关联 - 关联地区维度信息

330

6分26秒

062 - 日活宽表 - 维度关联 - 空指针异常问题

320

9分23秒

063 - 订单宽表 - 分析

370

25分43秒

064 - 订单宽表 - 消费到数据

330

18分8秒

065 - 订单宽表 - 维度关联

410

20分56秒

066 - 订单宽表 - 双流join - 内连接

350

13分53秒

067 - 订单宽表 - 双流join - 数据延迟问题

380

23分37秒

068 - 订单宽表 - 双流join - 数据延迟解决方案

550

22分4秒

069 - 回顾

400

17分54秒

070 - 订单宽表 - 双流join - 缓存方案 - 1

430

20分42秒

071 - 订单宽表 - 双流join - 缓存方案 - 2

420

10分31秒

072 - 订单宽表 - 双流join - 缓存方案 - 3

360

12分25秒

073 - ES - 简介

410

8分32秒

074 - ES - 使用场景

420

20分31秒

075 - ES - 常用存储框架比较

300

25分46秒

076 - ES - 特点

300

10分49秒

077 - ES - 安装 - 修改操作系统参数

450

19分36秒

078 - ES - 安装 - 安装启动

340

17分10秒

079 - ES - 安装 - 集群启停脚本

390

24分40秒

080 - ES - 安装 - 安装Kibana

360

12分22秒

081 - ES - DSL - 名词解释

430

17分39秒

082 - ES - DSL - 服务状态查询

280

28分34秒

083 - 回顾

390

18分10秒

084 - ES - DSL - ES存储的数据结构

400

23分56秒

085 - ES - DSL - 数据操作 - 1

260

25分47秒

086 - ES - DSL - 数据操作 - 2

450

11分13秒

087 - ES - DSL - 数据操作 - 3

390

15分27秒

088 - ES - DSL - 数据操作 - 4

340

14分12秒

089 - ES - DSL - 数据操作 - 5

390

12分49秒

090 - ES - DSL - 数据操作 - 6

360

15分47秒

091 - ES - DSL - 数据操作 - 7

430

13分14秒

092 - ES - DSL - 数据操作 - 8

380

10分10秒

093 - ES - DSL - SQL的使用

320

19分13秒

094 - ES - DSL - 中文分词 - 1

340

8分7秒

095 - ES - DSL - 中文分词 - 2

380

11分14秒

096 - ES - DSL - 索引分割

410

25分4秒

097 - ES - DSL - 索引别名

460

16分43秒

098 - ES - DSL - 索引模板

380

100

29分21秒

099 - 回顾

390

101

11分49秒

100 - ES - 读写原理 - 写流程

310

102

4分53秒

101 - ES - 读写原理 - 读流程

390

103

8分57秒

102 - ES - 读写原理 - 搜索流程

450

104

11分54秒

103 - ES - 读写原理 - 并发写控制

420

105

19分14秒

104 - ES - Shard与段 - Shard数量

320

106

29分8秒

105 - ES - Shard与段 - 段合并

310

107

16分10秒

106 - ES - 客户端 - 准备环境

340

108

13分29秒

107 - ES - 客户端 - 单条写入

340

109

10分7秒

108 - ES - 客户端 - 批量写入

350

110

27分9秒

109 - ES - 客户端 - 修改

300

111

6分30秒

110 - ES - 客户端 - 基于id删除和查询

390

112

20分45秒

111 - ES - 客户端 - 条件查询

340

113

20分23秒

112 - ES - 客户端 - 聚合查询

350

114

14分54秒

113 - 日活宽表 - ES工具类

340

115

16分41秒

114 - 日活宽表 - 写入ES

370

116

3分23秒

115 - 日活宽表 - 作业

360

117

23分10秒

116 - 回顾

330

118

13分46秒

117 - 订单宽表 - 写入ES

370

119

8分41秒

118 - 日活宽表 - 状态问题

390

120

12分26秒

119 - 日活宽表 - 状态还原 - 1

300

121

22分37秒

120 - 日活宽表 - 状态还原 - 2

370

122

6分8秒

121 - DWD到DWS - 总结

400

123

6分35秒

122 - 应用层 - 简介

360

124

10分8秒

123 - 应用层 - Kibana - 配置渠道日活

460

125

12分16秒

124 - 应用层 - Kibana - 配置热力地图

470

126

8分6秒

125 - 应用层 - Kibana - 配置大盘

500

127

15分53秒

126 - 应用层 - SpringBoot - web服务介绍

370

128

22分10秒

127 - 应用层 - SpringBoot - 技术发展过程

370

129

6分13秒

128 - 应用层 - SpringBoot - 简介

390

130

9分58秒

129 - 应用层 - SpringBoot - 初始搭建

350

131

12分6秒

130 - 应用层 - SpringBoot - 开发分层

440

132

11分40秒

131 - 应用层 - SpringBoot - 请求打通

430

133

9分37秒

132 - 应用层 - SpringBoot - 请求参数 - 1

320

134

10分54秒

133 - 应用层 - SpringBoot - 请求参数 - 2

300

135

10分29秒

134 - 应用层 - SpringBoot - 请求参数 - 3

370

136

16分16秒

135 - 应用层 - SpringBoot - 请求参数 - 4

300

137

17分8秒

136 - 回顾

330

138

7分14秒

137 - 应用层 - SpringBoot - 请求方式

330

139

12分16秒

138 - 应用层 - SpringBoot - 状态码

380

140

30分32秒

139 - 应用层 - SpringBoot - 业务层

320

141

8分58秒

140 - 应用层 - SpringBoot - 数据层

330

142

10分14秒

141 - 应用层 - 日活实时监控接口 - 接口介绍

380

143

5分29秒

142 - 应用层 - 日活实时监控接口 - 搭建环境

410

144

14分46秒

143 - 应用层 - 日活实时监控接口 - 测试连通

370

145

15分29秒

144 - 应用层 - 日活实时监控接口 - 查询总数

400

146

13分44秒

145 - 应用层 - 日活实时监控接口 - 查询分时明细

320

147

5分22秒

146 - 应用层 - 日活实时监控接口 - 对接前端页面

400

148

15分16秒

147 - 应用层 - 灵活查询接口 - 测试连通

400

149

25分58秒

148 - 应用层 - 灵活查询接口 - 类别统计 - 1

380

150

11分44秒

149 - 应用层 - 灵活查询接口 - 类别统计 - 2

410

151

22分31秒

150 - 应用层 - 灵活查询接口 - 明细查询 - 1

370

152

8分10秒

151 - 应用层 - 灵活查询接口 - 明细查询 - 2

360

153

22分33秒

152 - 总结 - 1

350

154

13分37秒

153 - 总结 - 2

350

155

18分47秒

154 - 总结 - 3

400

007 - 日志数据采集分流 - 整体架构

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐