文章/答案/技术大牛

发布

首页视频102 - ES - 读写原理 - 搜索流程

102 - ES - 读写原理 - 搜索流程

2022-12-022022-12-02 16:02:22播放45

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据Spark实时项目Spark Streaming/视频/102 - ES - 读写原理 - 搜索流程.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:01
OK啊，那这个基于ID的这个读和写呢，我们就聊这么多啊，他两个很简单啊，呃，下面这个稍微会麻烦一些啊，我们知道这个搜索流程。这个啥玩意叫销售流程呢，就是我们用这个search。对吧，用这个search的时候，那你想想啊，你在使用这个search的时候，你会给那个什么文档ID吗。不给吧，我们在使用search的时候一般都是什么？给query是不是给条件了啊，Query里面会有什么？会有什么filter那些东西。对吧，啊，会有什么可以条件了啊，那就说白了，我们的搜索流程呢，它可能会从你的ES中呢，去调出来很多条数据。那你既然你要调出来很多条数据，那我这个数据呢，就可能会什么出现到不同的你的。分片中，你要从不同的分片里面去调这个数据。对吧，好，那我们就需要去看一下他这个搜索流程，它到底怎么去做的啊。它其实这个相对会这个复杂一点啊，来我们看一下吧，整个这个搜索呢，我们被分成了两个阶段。
01:05
啊，整个这个搜索流程呢，是分成两个阶段去执行的啊，然后呢，我们称之为什么query than fetch，就说白了，我们先做query，然后呢再去做fetch，操作两步操作，这是第一步，这是第二步。啊，那这个query阶段做什么操作呢？啊，给大家去说一下。首先啊，我们这个在初始的这个查询阶段。就是你的这个query阶段啊，我要去查什么对吧，它会把这个查询呢，广播到索引中的每一个分片。能听懂吧，广播到这个索引中的每一个分面，那么至于是主还是副？至于是主还是副，哎，那这个叫什么，看情况了。对吧，主分面或者什么副分面，我要广播广播给你们了啊，那我广播给他们以后，他们干嘛呢？因为我也不知道你这个分片中啊，到底有没有这个数据啊。能理解吧，我也不知道你里面到底有没有这个数据啊，所以说我只能什么呀，广播啊，广撒网，我就想告诉你们，来，你们从内部先把我看一看，有没有我现在所搜索的这个数据，如果有的话报告给我。
02:09
能理解吧，就先广播给他们，让他们什么自己去内部去查看看有没有，如果有的话报告给我，OK，那么这个过程啊，大家注意了。我们每一个这个分票收到这个广播以后，他会怎么在内部的去查。查完以后呢，它会什么呀，构建出来一个对立，这个对立的什么叫优先对立啊，就这个优先对立OK吧，这也是啊，每个都都会有一个这个优先队列啊，那这个队列里面会放什么东西呢？它不会把真正的数据给你放进去，因为你这个数据要还是不要。还决定不下来。他会干嘛呢？他会给你返回一个就是呃，From加size一个什么优先队列，查到这个from加size呢，因为我们查数据的时候，我们是可以写分页操作的，对不对，就是我我说啊，比如说我要查什么，从第二页开始查，然后呢查什么查十条数据。
03:00
能听懂我的意思吧，啊，从第二页查查十条数据就说白了，你将来会算出来一个from加size。那你总共你就要十条数据，那你想想啊，你总共就要十条数据，你说我的每一个啥的，我需要给你返回11条吗。不需要吧，我就不需要给你返回什么大于十条的数据，我就什么给你返回十条数据就OK了。明白吧，就比如说诶，我把我满足条件的时效数据给你找出来，他把它满足条件的时效数据找出来，他把它满足条件的时效数据找出来。理解吧，都构建到什么各自的什么这个队列中啊，各自的队列中，然后呢，呃，接下来就把这队列给你返回回来了，注意啊，这个队列中不包含你真正的数据，它只包含你的数据的那个ID啊，就第一次的时候，我只给你返回ID，就是把这个名单先报给你啊，把名单报给你。听懂了吧，那这个时候呢，诶我们的这个。就是你可以理解为这个协调节点啊，我们的协调节点的话就是什么收到来自于什么，各个分片返回的什么这个队列。
04:01
这个队列中包含的就是你这个文档的ID啊，当然还有这个排序啊，就是谁在前谁在后是吧？啊，它是负排序的啊，就是我知道你的数据是怎么排的，理解吧，那么这个时候我的协调节点它会这么去做啊，你看啊，你给我返回一个队列，你给我返回一个队列，你给我返回一个队列，那么你们都通通的返回到了我的协调节点，那我的协调节点会干嘛呢？会把这些东西呢，给它组合成一个更大的一个队列。明白了吧，啊，组合成一个更大的队列，然后呢，这种情况下，他就要什么按照自己的条件呢，去把一些数据去掉。什么数据去掉了，就是我不要的数据给它去掉，就说白了，我会什么对你们这个数据呢，做一个整体的一个排序啊，做一个什么整体的一个排序，然后做一个数据的一个筛查。理解吧，那筛查完了以后呢，我的数据就我的这个队列呢，正常情况下，比如说按照我们刚刚讲的，它里面也是十个。因为你本身的查询，你就说我就要十条数据，对不对啊，那么他给你返回十个，他给你返回十个，他给你返回十个。对于他来讲这十个是最优的，对于他来讲这十个是最优的，对于他来讲这十个也是最优的，但是你们整体放到一起以后呢，就不一定谁是最优的，所以说我什么从这每每一个什么十个中再挑选出最优的十个来。
05:13
就综合起来，我去挑选出什么最优的时刻来。理解了吧，好，那这个就相当于我最终确定下来的，我要真正去调取的数据。这个时候我确定下来的，他们里面都是有ID的，对吧，你的每一条文档的ID我都是有的，那我既然有文档的ID的，那下一步的操作就是一个取回阶段，叫什么范阶段我都知道了，现在我要去取哪些文档了，对吧，这个时候呢。它会把你的ID听好了啊，这个就相当于什么，相当于基于ID的读了，你能明白吗？我这意思吧，我都有ID了，那我就知道知道什么读什么数据了吧，它会什么走一下基于ID的读的流程，比如说诶这个ID我打给哪个啥的，这个ID我打给哪个啥的，这个ID我打给哪个啥，说来你们把数据给我反馈回来。那么最后的话呢，他收到了诶读的请求，那把数据给他返还回去，他也收到读的请求返还回去，他也收到读的请求返还回去，那最后呢，我就把这十条数据就给他取回来。
06:10
明白吧，是这么一个过程。好吧，所以你看这整理这个图啊，就是两步操作，第一步操作呢。我不明确谁里面的数据满足我，那我就什么广撒网，你们都给我去调取一定量的，一定数量的数据，调取回来以后呢，先返回给我，返回给我以后呢，我整体去看一下，我最终确定下来什么，我最终想要用的数据，然后呢，再按照这个每一个ID呢，我打给什么每一个啥的说来，你帮我取哪条数据，你帮我取哪条数据，你帮我取哪条数据，最后呢，他们把数据取出来以后呢，再返回给我的协调节点，他就得到了最终的结果。那当然这个结果就可以返回给你的客户端了。明白吧，就分两个阶段，一个是fight啊，一个是query，一个是什么fight。啊，这个我们举个例子啊，举个比较形象的例子，就比如说这个选什么选国家队。
07:01
对吧，各大什么体育赛事啊，比如说以这个国家为名去做参参加参赛的啊，像那个什么奥运会对吧，国家队，那你想想啊，你在选这个国家队的时候，你怎么选啊。啊，你怎么选。那你肯定是这样子的呀，就是你的各个省队对不对，各个省队先给我网上报名的啊，比如说我们最终啊，这个国家队我们出多少个人呢？假如说这个田径对吧，我们出十个人好不好？哎，田径就总共有十个人参与，OK，那各个省队干嘛呢？各个省队先给我出上十个大名单啊，十个名单对吧，那就说白了，你在你的省队里面，这十个名单你怎么出啊，那肯定挑你们省里面最优的呀。是不是就说白了，我在我的每个省里面，我先去内战对吧，我先去自己去比啊，我比出来十个人，就这十个人是最优的，那么同样每个省都是一样子的啊，他们都什么挑出十个人来，是不是每个省都什么挑出十个人来？好吧，那把这个敲出来，这个十个人的什么名单啊，注意啊，他就直接把人送过去了，不是因为人家要不要你还两回事呢，对吧，我把名单先报上去。
08:04
对吧，名单报上来，名单报上来，报上来以后我这个国家队呢。综合去看你们的成绩。对吧，综合去看你们成绩，那我会最终怎么确定，诶十个什么大名单就说白了，我从你们这N多个人里面又挑出来最优的那十个人。这是一个名单，好，接下来呢，再把这个名单呢，挨个看一下，诶哪一个人属于哪个省，那我再把这个独立请求打回这个省，说来你把谁谁谁哪个人给我送过来，对吧？你把谁谁谁哪个人给我送过来啊，你把谁谁谁给我送过来。就最后一步是一个取回阶段，就是你要真正的把数据给他送过去。能明白吧，啊，大概就这么个过程啊，大家可以自己去类比的，去记一记啊，这就是我们的这个搜索的一个流程。好吧，这个要知道的啊，同学们就是分两个阶段啊，怎么分的，每个阶段干什么事儿？好吧，行，那就说完了啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据Spark实时项目Spark Streaming

（103/155）

6分42秒

001 - 简介 - 项目介绍

500

9分18秒

002 - 简介 - 离线计算

340

25分51秒

003 - 简介 - 实时计算

450

11分47秒

004 - 简介 - 离线架构

400

18分16秒

005 - 简介 - 实时架构

430

6分3秒

006 - 简介 - 项目需求

390

5分9秒

007 - 日志数据采集分流 - 整体架构

460

10分4秒

008 - 日志数据采集分流 - 采集到数据

430

10分59秒

009 - 日志数据采集分流 - 生成数据脚本

430

13分21秒

010 - 日志数据采集分流 - Kafka脚本

430

9分21秒

011 - 日志数据采集分流 - 准备工程环境

430

32分39秒

012 - 日志数据采集分流 - Kafka工具类 - 1

380

16分44秒

013 - 日志数据采集分流 - Kafka工具类 - 2

410

10分7秒

014 - 日志数据采集分流 - 配置工具类

390

25分44秒

015 - 日志数据采集分流 - 消费到数据

320

17分25秒

016 - 日志数据采集分流 - 分流 - 1

350

21分50秒

017 - 日志数据采集分流 - 分流 - 2

410

12分47秒

018 - 日志数据采集分流 - 分流 - 3

370

6分2秒

019 - 提gitee

330

20分34秒

020 - 回顾

330

21分53秒

021 - 日志数据采集分流 - 分流 - 完成

310

14分56秒

022 - 日志数据采集分流 - 精确一次消费 - 分析问题

360

11分57秒

023 - 日志数据采集分流 - 精确一次消费 - 事务方案

440

19分49秒

024 - 日志数据采集分流 - 精确一次消费 - 后置提交加幂等方案

350

14分22秒

025 - 日志数据采集分流 - 精确一次消费 - Redis工具类

300

16分25秒

026 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 1

400

17分47秒

027 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 2

330

9分24秒

028 - 日志数据采集分流 - 精确一次消费 - Offset工具类 - 3

440

20分4秒

029 - 日志数据采集分流 - 精确一次消费 - 完成

250

6分45秒

030 - 日志数据采集分流 - 精确一次消费 - 总结

330

13分21秒

031 - 日志数据采集分流 - Kafka缓冲区问题 - 分析问题

340

24分24秒

032 - 日志数据采集分流 - Kafka缓冲区问题 - 解决问题

350

15分11秒

033 - 业务数据采集分流 - 架构分析

430

10分21秒

034 - 业务数据采集分流 - MaxWell工作原理

310

16分28秒

035 - 业务数据采集分流 - binlog格式

470

9分28秒

036 - 业务数据采集分流 - 安装Maxwell和MySQL

440

14分50秒

037 - 业务数据采集分流 - 采集完成

460

23分3秒

038 - 回顾

370

19分48秒

039 - 业务数据采集分流 - 分流 - 消费到数据

370

25分38秒

040 - 业务数据采集分流 - 分流 - 事实数据

440

21分55秒

041 - 业务数据采集分流 - 分流 - 维度数据 - 1

390

9分0秒

042 - 业务数据采集分流 - 分流 - 维度数据 - 2

320

4分15秒

043 - 业务数据采集分流 - 分析问题

350

16分47秒

044 - 业务数据采集分流 - 解决问题 - 历史维度引导

450

9分31秒

045 - 业务数据采集分流 - 解决问题 - Redis连接

300

13分18秒

046 - 业务数据采集分流 - 解决问题 - 动态表清单 - 1

350

21分33秒

047 - 业务数据采集分流 - 解决问题 - 动态表清单 - 2

370

28分46秒

048 - 业务数据采集分流 - 数据处理顺序性

410

10分42秒

049 - ODS到DWD - 总结

450

15分2秒

050 - DWD到DWD - 分析(1)

410

15分2秒

050 - DWD到DWD - 分析

290

7分3秒

051 - 日活宽表 - 任务分析

320

13分28秒

052 - 日活宽表 - 消费到数据

340

15分42秒

053 - 日活宽表 - 去重 - 分析

410

11分42秒

054 - 日活宽表 - 去重 - 自我审查

410

18分57秒

055 - 回顾

360

21分38秒

056 - 日活宽表 - 去重 - 第三方审查 - 1

410

33分53秒

057 - 日活宽表 - 去重 - 第三方审查 - 2

320

10分19秒

058 - 日活宽表 - 维度关联 - 分析

400

23分4秒

059 - 日活宽表 - 维度关联 - 对象属性拷贝

370

7分3秒

060 - 日活宽表 - 维度关联 - 关联用户维度信息

350

15分20秒

061 - 日活宽表 - 维度关联 - 关联地区维度信息

330

6分26秒

062 - 日活宽表 - 维度关联 - 空指针异常问题

320

9分23秒

063 - 订单宽表 - 分析

370

25分43秒

064 - 订单宽表 - 消费到数据

330

18分8秒

065 - 订单宽表 - 维度关联

410

20分56秒

066 - 订单宽表 - 双流join - 内连接

350

13分53秒

067 - 订单宽表 - 双流join - 数据延迟问题

380

23分37秒

068 - 订单宽表 - 双流join - 数据延迟解决方案

550

22分4秒

069 - 回顾

400

17分54秒

070 - 订单宽表 - 双流join - 缓存方案 - 1

430

20分42秒

071 - 订单宽表 - 双流join - 缓存方案 - 2

420

10分31秒

072 - 订单宽表 - 双流join - 缓存方案 - 3

360

12分25秒

073 - ES - 简介

410

8分32秒

074 - ES - 使用场景

420

20分31秒

075 - ES - 常用存储框架比较

300

25分46秒

076 - ES - 特点

300

10分49秒

077 - ES - 安装 - 修改操作系统参数

450

19分36秒

078 - ES - 安装 - 安装启动

340

17分10秒

079 - ES - 安装 - 集群启停脚本

390

24分40秒

080 - ES - 安装 - 安装Kibana

360

12分22秒

081 - ES - DSL - 名词解释

430

17分39秒

082 - ES - DSL - 服务状态查询

280

28分34秒

083 - 回顾

390

18分10秒

084 - ES - DSL - ES存储的数据结构

400

23分56秒

085 - ES - DSL - 数据操作 - 1

260

25分47秒

086 - ES - DSL - 数据操作 - 2

450

11分13秒

087 - ES - DSL - 数据操作 - 3

390

15分27秒

088 - ES - DSL - 数据操作 - 4

340

14分12秒

089 - ES - DSL - 数据操作 - 5

390

12分49秒

090 - ES - DSL - 数据操作 - 6

360

15分47秒

091 - ES - DSL - 数据操作 - 7

430

13分14秒

092 - ES - DSL - 数据操作 - 8

380

10分10秒

093 - ES - DSL - SQL的使用

320

19分13秒

094 - ES - DSL - 中文分词 - 1

340

8分7秒

095 - ES - DSL - 中文分词 - 2

380

11分14秒

096 - ES - DSL - 索引分割

410

25分4秒

097 - ES - DSL - 索引别名

460

16分43秒

098 - ES - DSL - 索引模板

380

100

29分21秒

099 - 回顾

390

101

11分49秒

100 - ES - 读写原理 - 写流程

310

102

4分53秒

101 - ES - 读写原理 - 读流程

390

103

8分57秒

102 - ES - 读写原理 - 搜索流程

450

104

11分54秒

103 - ES - 读写原理 - 并发写控制

420

105

19分14秒

104 - ES - Shard与段 - Shard数量

320

106

29分8秒

105 - ES - Shard与段 - 段合并

310

107

16分10秒

106 - ES - 客户端 - 准备环境

340

108

13分29秒

107 - ES - 客户端 - 单条写入

340

109

10分7秒

108 - ES - 客户端 - 批量写入

350

110

27分9秒

109 - ES - 客户端 - 修改

300

111

6分30秒

110 - ES - 客户端 - 基于id删除和查询

390

112

20分45秒

111 - ES - 客户端 - 条件查询

340

113

20分23秒

112 - ES - 客户端 - 聚合查询

350

114

14分54秒

113 - 日活宽表 - ES工具类

340

115

16分41秒

114 - 日活宽表 - 写入ES

370

116

3分23秒

115 - 日活宽表 - 作业

360

117

23分10秒

116 - 回顾

330

118

13分46秒

117 - 订单宽表 - 写入ES

370

119

8分41秒

118 - 日活宽表 - 状态问题

390

120

12分26秒

119 - 日活宽表 - 状态还原 - 1

300

121

22分37秒

120 - 日活宽表 - 状态还原 - 2

370

122

6分8秒

121 - DWD到DWS - 总结

400

123

6分35秒

122 - 应用层 - 简介

360

124

10分8秒

123 - 应用层 - Kibana - 配置渠道日活

460

125

12分16秒

124 - 应用层 - Kibana - 配置热力地图

470

126

8分6秒

125 - 应用层 - Kibana - 配置大盘

500

127

15分53秒

126 - 应用层 - SpringBoot - web服务介绍

370

128

22分10秒

127 - 应用层 - SpringBoot - 技术发展过程

370

129

6分13秒

128 - 应用层 - SpringBoot - 简介

390

130

9分58秒

129 - 应用层 - SpringBoot - 初始搭建

350

131

12分6秒

130 - 应用层 - SpringBoot - 开发分层

440

132

11分40秒

131 - 应用层 - SpringBoot - 请求打通

430

133

9分37秒

132 - 应用层 - SpringBoot - 请求参数 - 1

320

134

10分54秒

133 - 应用层 - SpringBoot - 请求参数 - 2

300

135

10分29秒

134 - 应用层 - SpringBoot - 请求参数 - 3

370

136

16分16秒

135 - 应用层 - SpringBoot - 请求参数 - 4

300

137

17分8秒

136 - 回顾

330

138

7分14秒

137 - 应用层 - SpringBoot - 请求方式

330

139

12分16秒

138 - 应用层 - SpringBoot - 状态码

380

140

30分32秒

139 - 应用层 - SpringBoot - 业务层

320

141

8分58秒

140 - 应用层 - SpringBoot - 数据层

330

142

10分14秒

141 - 应用层 - 日活实时监控接口 - 接口介绍

380

143

5分29秒

142 - 应用层 - 日活实时监控接口 - 搭建环境

410

144

14分46秒

143 - 应用层 - 日活实时监控接口 - 测试连通

370

145

15分29秒

144 - 应用层 - 日活实时监控接口 - 查询总数

400

146

13分44秒

145 - 应用层 - 日活实时监控接口 - 查询分时明细

320

147

5分22秒

146 - 应用层 - 日活实时监控接口 - 对接前端页面

400

148

15分16秒

147 - 应用层 - 灵活查询接口 - 测试连通

400

149

25分58秒

148 - 应用层 - 灵活查询接口 - 类别统计 - 1

380

150

11分44秒

149 - 应用层 - 灵活查询接口 - 类别统计 - 2

410

151

22分31秒

150 - 应用层 - 灵活查询接口 - 明细查询 - 1

370

152

8分10秒

151 - 应用层 - 灵活查询接口 - 明细查询 - 2

360

153

22分33秒

152 - 总结 - 1

350

154

13分37秒

153 - 总结 - 2

350

155

18分47秒

154 - 总结 - 3

400

102 - ES - 读写原理 - 搜索流程

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐