文章/答案/技术大牛

发布

首页视频030 - 日志数据采集分流 - 精确一次消费 - 总结

030 - 日志数据采集分流 - 精确一次消费 - 总结

2022-12-022022-12-02 16:02:22播放33

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据Spark实时项目Spark Streaming/视频/030 - 日志数据采集分流 - 精确一次消费 - 总结.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:01
好，同学们，我们来开始下午的内容啊呃，上午我们下课前我们完成了这个精确一次消费嗯的一部分，对吧，就现在还没有把它做完啊，我们现在只是做到了呃，后置提交偏移量。对吧，那我们再来简单回顾一下啊，怎么去做到这个事情，呃，其实还是挺复杂的啊，呃，因为你想这个做这个就是后置提交偏移量。那你就得保证。提交偏移量的，这个是要你手动去控制的。对吧，那我们手动控制的话呢，诶就得什么呀，把这个opposite提交呢，改成这个手动的。但是呢，现在有一个限制是我们并不是自己。呃，作为这个消费者呢，去消费这个数据，对吧，而是卡不卡，而是这个Spark streaming呢，帮我们去做了这个事。所以说我们就不好自己去控制啊，就是比如说通过这个消费者对象，然后就调那个什么卡的方法，然后去提交。对吧，但人家这个，呃，Spark呢，也帮我们提供了一种方案。
01:02
只不过这种方案呢，呃，我们目前的话也不能用。啊，它有一定的限制啊，就是你不对这个数据做任何改动的情况下，那你可以这么去做，但其实我们是必须要对数据做改动的。要不我就没办法去处理我的数据。对吧，所以说呢，这个方案我们也用不了了。啊，那最终我们采用的方案就是，呃，我们需要自己去管理，自己去维护这个offet，就不能再借助于这个卡卡去做了，对吧，不能借助于这个Spark streaming，然后去做了。好，那我们怎么做的呢？我们是单独把这个off提取出来，然后呢，做了一个维护，我们是把它维护到了这个red中。对吧，好，那我们整体流程是什么样子的呢？就是呃，我们每次在这个从卡夫卡去消费数据的时候。啊，每次呃，从卡不卡消费数据的时候。我们需要干嘛呀？呃，我的直播好像有点歪，没有对齐。
02:06
我看看啊，现在呢。呃，现在对齐了吗？现在好了是吧，啊，刚刚没注意哈，可能不小心拖动了一下啊，来，那我们说回来啊。呃，就是我每次从这个卡不卡去消费数据的时候，那我需要什么带上一个这个off去做消费，那这个off的话，就是我们提前维护到这个red中的，对吧，什么时候维护进去的呢？就是当你这个每一次把数据写完以后，写出去以后，我们最后呢，把这个offset给他，诶维护到这个ready中。好，那我们这个维护了，这个从哪得到的呢？我们是从你当前消费到的这个数据里面。对吧，就从你这个当前消费的数据里面，然后把它提取出来的。OK吧，就是这个整个的这个呃过程啊，你得知道我们是怎么去做的。好，那基于这种方案的话呢，我们就呃提供了这样的代码。
03:01
来再来看一下，我们写了一个就是opposite管理的一个方案啊，我们可以去往你的red去存这个opposite，然后呢，也可以从你这个red去读opposite。对吧，好，那有了这个功能以后呢，我们在我们这个主程序中。啊，我们就可以来看一下，我们在每一次从你的卡夫卡中去消费数据的时候呢，我其实先去读一个offset。读到offset以后呢，我通过offset再去从你的卡不卡的消费数据。当然我们需要做一个判断啊，就看一下你到底是有值还是没值，如果说你没有值，那我就按照卡不卡的这个默认upet去做消费，如果说你有值的话，那我就按照我的去做消费。对吧，然后你消费出来数据以后呢，你要立马去把这个给它提取出来。能听到吧，就是不做转换的前提之下，把它提取出来，然后踢出来以后呢，你把这个offet赚到手里面，那接下来你就该做什么操作，你就做什么操作。好，等我们把数据完全的处理完成以后呢，我们找一个合适的位置。
04:03
然后呢，把offset做一个提交，当然这个位置的话呢，也是比较刁钻的啊，这个你一定要想清楚在什么地方去写啊，我们分析过有什么for，有什么for r DD里面，还有什么for RD的外面。对吧，最后呢，我们选择的是这个for r DD里面，然后呢，For的外面，因为它是在这个Java端执行的，并且呢，它是一个批次呢，执行一次，它是周期性的。那我们正好就是希望，诶，我每消费一批次的数据，那我就提交一次，每消费一批次数据，我提交一次，这个正好就是一个周期性的提交。对吧，所以说我们就可以什么使用诶这个位置来进行这个提交了。好吧，这是我们，呃，上午呢去做的这个事情啊，OK，呃，那至于我们最终想做到的这个精确一次消费啊，现在还做不到。啊，因为我们还有一个密等性的这个处理没有去做理解吧，就现在我们写了一上午，其实主要主要就是保证了这个数据不丢失了，啊，其实现在它里面还会有一个问题，就是数据呢，可能会重复。
05:03
能听到吧，数据会重复这个问题啊是那这个重复问题的话呢，呃，我们目前就不用再去管了，因为啥呢？因为我们现在处理完的数据呢，是写到了卡不卡。对吧，处理完数据写到卡不卡。那么我们其实现在的话呢，并不会在你的卡夫卡中呢，去做数据的一个什么统计，就说白了啊，还是来看这个流程。我们把数据做了分流以后，然后呢，分流到了这个卡夫卡中。那我们现在明显知道的就是这里面可能会写进去重复数据，但是问题不大，因为我们不会在这个层面的做这个数据的统计，就是最后的这个统计，我们不会在这个层面去做，所以说呢，你有重复数据你就有吧。对吧，然后呢，等你这个数据再接着往后去处理的时候，诶，那我就要去考虑这个幂等性了。就比如说你里面有这个重复的数据。是吧，那我要想把这个数据呢，做这个去重操作啊，或者说呢，我在这个最终写入到我这个，呃，就是o lap的时候呢，诶我看看能不能把那个重复的数据呢，给它什么去个重。啊，那么其实也是可以的啊，我们的这个ES呢，它是支持这个密登写的，到时候你这个相同的两条数据，你这个写到ES的时候呢，它就什么只会给你存储一条，那么这样我们就可以，诶前面呢保证数据不丢失，后面呢保证这个数据呢，可以什么做一个去同操作，那前后加起来我们就整体做到了，诶精确一次。
06:20
好吧，所以说呢，这个。密性的操作，我们就先先再等等了啊，现在我们就先不做这个处理了。明白了吧，同学们啊，这是我们，呃一上午啊，我们所做的这个事情啊，我们再来把它这个简单去，呃，这个总结一下啊好吧。呃，那这个完事以后呢，其实我们这里面还会有一个问题啊，嗯，这个问题我们单独来说啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据Spark实时项目Spark Streaming

（30/155）

6分42秒

001 - 简介 - 项目介绍

500

9分18秒

002 - 简介 - 离线计算

340

25分51秒

003 - 简介 - 实时计算

450

11分47秒

004 - 简介 - 离线架构

400

18分16秒

005 - 简介 - 实时架构

430

6分3秒

006 - 简介 - 项目需求

390

5分9秒

007 - 日志数据采集分流 - 整体架构

460

10分4秒

008 - 日志数据采集分流 - 采集到数据

430

10分59秒

009 - 日志数据采集分流 - 生成数据脚本

430

13分21秒

010 - 日志数据采集分流 - Kafka脚本

430

9分21秒

011 - 日志数据采集分流 - 准备工程环境

430

32分39秒

012 - 日志数据采集分流 - Kafka工具类 - 1

380

16分44秒

013 - 日志数据采集分流 - Kafka工具类 - 2

410

10分7秒

014 - 日志数据采集分流 - 配置工具类

390

25分44秒

015 - 日志数据采集分流 - 消费到数据

320

17分25秒

016 - 日志数据采集分流 - 分流 - 1

350

21分50秒

017 - 日志数据采集分流 - 分流 - 2

410

12分47秒

018 - 日志数据采集分流 - 分流 - 3

370

6分2秒

019 - 提gitee

330

20分34秒

020 - 回顾

330

21分53秒

021 - 日志数据采集分流 - 分流 - 完成

310

14分56秒

022 - 日志数据采集分流 - 精确一次消费 - 分析问题

360

11分57秒

023 - 日志数据采集分流 - 精确一次消费 - 事务方案

440

19分49秒

024 - 日志数据采集分流 - 精确一次消费 - 后置提交加幂等方案

350

14分22秒

025 - 日志数据采集分流 - 精确一次消费 - Redis工具类

300

16分25秒

026 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 1

400

17分47秒

027 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 2

330

9分24秒

028 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 3

440

20分4秒

029 - 日志数据采集分流 - 精确一次消费 - 完成

250

6分45秒

030 - 日志数据采集分流 - 精确一次消费 - 总结

330

13分21秒

031 - 日志数据采集分流 - Kafka缓冲区问题 - 分析问题

340

24分24秒

032 - 日志数据采集分流 - Kafka缓冲区问题 - 解决问题

350

15分11秒

033 - 业务数据采集分流 - 架构分析

430

10分21秒

034 - 业务数据采集分流 - MaxWell工作原理

310

16分28秒

035 - 业务数据采集分流 - binlog格式

470

9分28秒

036 - 业务数据采集分流 - 安装Maxwell和MySQL

440

14分50秒

037 - 业务数据采集分流 - 采集完成

460

23分3秒

038 - 回顾

370

19分48秒

039 - 业务数据采集分流 - 分流 - 消费到数据

370

25分38秒

040 - 业务数据采集分流 - 分流 - 事实数据

440

21分55秒

041 - 业务数据采集分流 - 分流 - 维度数据 - 1

390

9分0秒

042 - 业务数据采集分流 - 分流 - 维度数据 - 2

320

4分15秒

043 - 业务数据采集分流 - 分析问题

350

16分47秒

044 - 业务数据采集分流 - 解决问题 - 历史维度引导

450

9分31秒

045 - 业务数据采集分流 - 解决问题 - Redis连接

300

13分18秒

046 - 业务数据采集分流 - 解决问题 - 动态表清单 - 1

350

21分33秒

047 - 业务数据采集分流 - 解决问题 - 动态表清单 - 2

370

28分46秒

048 - 业务数据采集分流 - 数据处理顺序性

410

10分42秒

049 - ODS到DWD - 总结

450

15分2秒

050 - DWD到DWD - 分析(1)

410

15分2秒

050 - DWD到DWD - 分析

290

7分3秒

051 - 日活宽表 - 任务分析

320

13分28秒

052 - 日活宽表 - 消费到数据

340

15分42秒

053 - 日活宽表 - 去重 - 分析

410

11分42秒

054 - 日活宽表 - 去重 - 自我审查

410

18分57秒

055 - 回顾

360

21分38秒

056 - 日活宽表 - 去重 - 第三方审查 - 1

410

33分53秒

057 - 日活宽表 - 去重 - 第三方审查 - 2

320

10分19秒

058 - 日活宽表 - 维度关联 - 分析

400

23分4秒

059 - 日活宽表 - 维度关联 - 对象属性拷贝

370

7分3秒

060 - 日活宽表 - 维度关联 - 关联用户维度信息

350

15分20秒

061 - 日活宽表 - 维度关联 - 关联地区维度信息

330

6分26秒

062 - 日活宽表 - 维度关联 - 空指针异常问题

320

9分23秒

063 - 订单宽表 - 分析

370

25分43秒

064 - 订单宽表 - 消费到数据

330

18分8秒

065 - 订单宽表 - 维度关联

410

20分56秒

066 - 订单宽表 - 双流join - 内连接

350

13分53秒

067 - 订单宽表 - 双流join - 数据延迟问题

380

23分37秒

068 - 订单宽表 - 双流join - 数据延迟解决方案

550

22分4秒

069 - 回顾

400

17分54秒

070 - 订单宽表 - 双流join - 缓存方案 - 1

430

20分42秒

071 - 订单宽表 - 双流join - 缓存方案 - 2

420

10分31秒

072 - 订单宽表 - 双流join - 缓存方案 - 3

360

12分25秒

073 - ES - 简介

410

8分32秒

074 - ES - 使用场景

420

20分31秒

075 - ES - 常用存储框架比较

300

25分46秒

076 - ES - 特点

300

10分49秒

077 - ES - 安装 - 修改操作系统参数

450

19分36秒

078 - ES - 安装 - 安装启动

340

17分10秒

079 - ES - 安装 - 集群启停脚本

390

24分40秒

080 - ES - 安装 - 安装Kibana

360

12分22秒

081 - ES - DSL - 名词解释

430

17分39秒

082 - ES - DSL - 服务状态查询

280

28分34秒

083 - 回顾

390

18分10秒

084 - ES - DSL - ES存储的数据结构

400

23分56秒

085 - ES - DSL - 数据操作 - 1

260

25分47秒

086 - ES - DSL - 数据操作 - 2

450

11分13秒

087 - ES - DSL - 数据操作 - 3

390

15分27秒

088 - ES - DSL - 数据操作 - 4

340

14分12秒

089 - ES - DSL - 数据操作 - 5

390

12分49秒

090 - ES - DSL - 数据操作 - 6

360

15分47秒

091 - ES - DSL - 数据操作 - 7

430

13分14秒

092 - ES - DSL - 数据操作 - 8

380

10分10秒

093 - ES - DSL - SQL的使用

320

19分13秒

094 - ES - DSL - 中文分词 - 1

340

8分7秒

095 - ES - DSL - 中文分词 - 2

380

11分14秒

096 - ES - DSL - 索引分割

410

25分4秒

097 - ES - DSL - 索引别名

460

16分43秒

098 - ES - DSL - 索引模板

380

100

29分21秒

099 - 回顾

390

101

11分49秒

100 - ES - 读写原理 - 写流程

310

102

4分53秒

101 - ES - 读写原理 - 读流程

390

103

8分57秒

102 - ES - 读写原理 - 搜索流程

450

104

11分54秒

103 - ES - 读写原理 - 并发写控制

420

105

19分14秒

104 - ES - Shard与段 - Shard数量

320

106

29分8秒

105 - ES - Shard与段 - 段合并

310

107

16分10秒

106 - ES - 客户端 - 准备环境

340

108

13分29秒

107 - ES - 客户端 - 单条写入

340

109

10分7秒

108 - ES - 客户端 - 批量写入

350

110

27分9秒

109 - ES - 客户端 - 修改

300

111

6分30秒

110 - ES - 客户端 - 基于id删除和查询

390

112

20分45秒

111 - ES - 客户端 - 条件查询

340

113

20分23秒

112 - ES - 客户端 - 聚合查询

350

114

14分54秒

113 - 日活宽表 - ES工具类

340

115

16分41秒

114 - 日活宽表 - 写入ES

370

116

3分23秒

115 - 日活宽表 - 作业

360

117

23分10秒

116 - 回顾

330

118

13分46秒

117 - 订单宽表 - 写入ES

370

119

8分41秒

118 - 日活宽表 - 状态问题

390

120

12分26秒

119 - 日活宽表 - 状态还原 - 1

300

121

22分37秒

120 - 日活宽表 - 状态还原 - 2

370

122

6分8秒

121 - DWD到DWS - 总结

400

123

6分35秒

122 - 应用层 - 简介

360

124

10分8秒

123 - 应用层 - Kibana - 配置渠道日活

460

125

12分16秒

124 - 应用层 - Kibana - 配置热力地图

470

126

8分6秒

125 - 应用层 - Kibana - 配置大盘

500

127

15分53秒

126 - 应用层 - SpringBoot - web服务介绍

370

128

22分10秒

127 - 应用层 - SpringBoot - 技术发展过程

370

129

6分13秒

128 - 应用层 - SpringBoot - 简介

390

130

9分58秒

129 - 应用层 - SpringBoot - 初始搭建

350

131

12分6秒

130 - 应用层 - SpringBoot - 开发分层

440

132

11分40秒

131 - 应用层 - SpringBoot - 请求打通

430

133

9分37秒

132 - 应用层 - SpringBoot - 请求参数 - 1

320

134

10分54秒

133 - 应用层 - SpringBoot - 请求参数 - 2

300

135

10分29秒

134 - 应用层 - SpringBoot - 请求参数 - 3

370

136

16分16秒

135 - 应用层 - SpringBoot - 请求参数 - 4

300

137

17分8秒

136 - 回顾

330

138

7分14秒

137 - 应用层 - SpringBoot - 请求方式

330

139

12分16秒

138 - 应用层 - SpringBoot - 状态码

380

140

30分32秒

139 - 应用层 - SpringBoot - 业务层

320

141

8分58秒

140 - 应用层 - SpringBoot - 数据层

330

142

10分14秒

141 - 应用层 - 日活实时监控接口 - 接口介绍

380

143

5分29秒

142 - 应用层 - 日活实时监控接口 - 搭建环境

410

144

14分46秒

143 - 应用层 - 日活实时监控接口 - 测试连通

370

145

15分29秒

144 - 应用层 - 日活实时监控接口 - 查询总数

400

146

13分44秒

145 - 应用层 - 日活实时监控接口 - 查询分时明细

320

147

5分22秒

146 - 应用层 - 日活实时监控接口 - 对接前端页面

400

148

15分16秒

147 - 应用层 - 灵活查询接口 - 测试连通

400

149

25分58秒

148 - 应用层 - 灵活查询接口 - 类别统计 - 1

380

150

11分44秒

149 - 应用层 - 灵活查询接口 - 类别统计 - 2

410

151

22分31秒

150 - 应用层 - 灵活查询接口 - 明细查询 - 1

370

152

8分10秒

151 - 应用层 - 灵活查询接口 - 明细查询 - 2

360

153

22分33秒

152 - 总结 - 1

350

154

13分37秒

153 - 总结 - 2

350

155

18分47秒

154 - 总结 - 3

400

030 - 日志数据采集分流 - 精确一次消费 - 总结

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐