文章/答案/技术大牛

发布

首页视频146_尚硅谷_实时电商项目_SummingMergeTree

146_尚硅谷_实时电商项目_SummingMergeTree

2022-12-022022-12-02 16:02:24播放28

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商项目(实时处理)/视频/146_尚硅谷_实时电商项目_SummingMergeTree.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
再往下走呢，咱们来看下一个我们的个表演情对吧，这个表演器叫什么？这个表演情啊叫萨米tree啊叫sum tree，其实咱现在呢，你不管选择什么表的引擎对吧，那其实呢都是对吧，在我们这个啊，这个处理的时候啊，它其实都是相当于给我做些优化对吧，比如说我可以分区啊对吧，我可以对吧，这个加索引呢，对吧，我可以排序啊，我可以去重吗？对吧，到这三可以参加什么，那大家注意，如果说啊，你现在呢，把这数据保存到我们这个clean house里边了，对吧，那你保存之后呢，你只关心咱们按照某些维度来进行汇总对吧，而不关心我现在具体明细的情况下啊，比如说现在对吧想统计对吧某一部门对吧，然后呢，他员工的什么什么什么对吧，他的一个合计，对这个时候呢，我们不想显示咱部门的一些信息了，我只想显示诶部门的一些对吧，这个合计对吧，这个值但。
01:00
这个时候呢，你可以选择我们的发tree对吧，这个场景对吧，因为如果说啊，你现在要是普通的一个我墨tree的话，对吧，那他呢，会把咱们先啊这个具体的明细也给查出来，那这样的话呢，对吧，咱们其实我这个开销内存开销存不外开销还是比较大的，对吧？那如果使用我三维模式退的话，那么这时候呢，它可以节省我们现在它的一个存储开销，那具体怎么做的呢？对吧，它这里提供了一个预聚合的功能，那么具体怎么预聚合呢？咱们来看我们的案例啊，来演示一下，首先呢，咱们现在创建我这表，这个表呢叫sum tree，然后接下来在这里引擎改了，这个叫sum tree啊叫3TREE，到目前为止能接受几种引擎了，同学们。Memory monitor tree，然后呢，Replacing，然后对吧，是不是这些对吧？哎，那么咱们现在呢，在这里去把这引擎改一改，然后接下来这里还有一个什么呢？还有一个total amount，这个total amount是时候呢，对吧？来我也不知道，咱们一起来看来做总结，首先呢，那我现在啊，在这里把这个表创建一下，然后接下来向表中呢，去插入一些我测试数据啊，向表里边来插入一些我测试数据，对吧？然后接下来执行第一次查询selecting fromt order，然后呢，SMT来查询一下，那这个呢，其实我们现在是正常的，没有做什么咱们这个汇总对吧？那么如果说我现在想去做咱们这个汇总的话，它有个预聚合，那怎么做呢？把咱们现在呢这个操作指引下，Op啊，Math table key_order as，对吧，然后进来final啊进来final注意看，那么执行完毕之后呢，咱们现在再来查询。
02:44
对吧，来和上边做一个对比对吧，和咱上边呢做一个对比对看一看这个东西有什么不一样的地方对吧。一样的这个的。
03:06
啊，这个分区数据没变，但是呢，咱们现在这个分区是不是有102，还有SQ002，下面这个分区是不是也有啊，说明咱们现在呢，这个汇总啊，它也是以分区为单位的，对吧？它只会处理咱当前的分区的，然后接下来，那么咱们现在呢，在我这里边幺零啊幺，然后102这个102在咱们当前的分区里边，102和SQ002这三个数据是不是重复的，同学们都要重复的，那么如果重复的话，咱们现在呢，要想去统计，那么这个时候大家想一想，我们现在呢，在这里我们原来啊是去虫只以保留其中一个，但是呢，那我现在干什么了？我不是说多少这个驱重了，保留其中一个，我想做什么，我想做汇总，对吧，我想把咱们当前的这个分区中ID是多少多少，他说啊或者说啊，按照ID以及SQID来进行分组，然后求分组之后的一个累加和，那这个时候你看是不是按照咱现在ID和SQID来进行分组分组。
04:07
之后是不是取一个累加呀，对吧？那这里有一个问题对吧，那我现在这里面有三条记录对吧？在他这里边我呀有三条记录，那么你现在做累加的时候呢，你可以把这个ID给我展出来，SQID我展出来，因为这个是你在order y里面给我指定的字段，我要按照你给我指定这个字段来进行一个分组嘛，对吧？那么咱们现在分组之后，这个东西create time，大家想一想，它是不是没有指定啊，对吧？那么咱们现在呢，在咱们分组的时候也用不上它，那你说我现在一共三个这个cur time，我留谁呢？对，留留谁呢？对吧？那么这个时候咱们看一看对吧，它留的是这个11点，那如果留这个11点的话，那说明咱们现在应该不是最后一个吧，对吧？那它的规则什么样的，咱们来看结论。首先第一个对吧，那么咱们呢，对吧，只用它吧，按照指定列作为汇总对吧，那么咱们呢，对吧，在这里以order by它的列对吧作为标准来作为维度列，注意啊，就相当于你现在这里来进行分组了，作为维度列对吧，然后呢，可以填写多个列啊，就咱们现在在这里我的进行分组的时候，我不是创建咱们的表的时候，我指定了一个这个东西吗？对吧，叫sum me tree，我是不是按照咱们现在它的一个total amount来进行汇总量，你可以指定多个列啊，你可以在这里指定多个列，多个列，多个列对吧，但是呢，那么咱们这多个列的，那你必须是对吧，我们的一个可聚合的对吧，是数字列对吧，可预算的对吧，那么如果不填的话，它呢，会以所有的非维度列来进行一个我们的一个费这个汇总什么意思，比如说我现在呢，这里有咱们这个学生他的一个ID，对，然后呢名字，然后还有一个什么，还有一个是我们这个。
05:53
这个班级啊，还有一个班级，然后记得还有一个什么S扣分数的分数，那么这个时候呢，咱们现在在统计的时候，大家想一想，我假如说啊，我想按照咱们这个班级端来进行统计，那么这个时候咱们是不是应该是这样按照班级进行分组，然后取得这个分数啊，对吧？那我们现在呢，我如果使用我这肯定号的存储的话，那一般呢，这个东西，这个东西是我的维度列吗？不是吧，对吧？它是唯一标记的，一般我不写，我不保存的对吧？我不保存的，然后记得这名字呢，对吧，那我现在也不保存了，我只要什么呀，我只留我的维度里，比如只留我的班级对吧？那么咱们现在假如说0523班级这个好多学生分数拿过来了，那么咱们到时候再转，到时候再进行汇总的时候，是不是相当于对我的班级做个分组，然后把这些东西是不是都给展示出来了，做这个汇总展示出来了，然后进下来呢？如果说我现在有0621半径，那么这个时候把0621半径都要给展出来，对吧？所以说呢，咱们现在这里如果要使用我们这个三零模推的话，那大家知道按照谁来进行分组呢，对吧？
06:53
啊，按照咱order外地指定的维度列进行分组，那么咱们分组之后对谁做聚合呢？所有非维度列的数字字段它都会进行聚合，对吧？然后接下来，那么咱们现在呢？在我们这个聚合的时候，对吧？那么它肯定会舍弃一些电，那么它舍弃谁呢？对吧？那么咱们现在它是其他的列，按照插入顺序只保留第一行。
07:17
对吧，咱们把最早的给他保留一下，对吧，然后接下来他也只是在咱们这个分区内聚合，分区间呢，不会聚合对吧，那么开发的时候有一个建议，怎么建议的呢？对吧，说如果说我设计表的话，对吧，像什么唯一建值啊，流水号这些东西都给干掉，咱们保留所有字段全是咱们这个维度字段。啊，所有字段都是咱们一字字段短期我现在在在这里我保留什么呀，我保留全是维度字段对吧，比如说我现在这个是吧，这个班级的短，或者这个是学生的地区的对吧，那这块呢，对吧，这个是是是什么什么什么，咱全是维度字段短位性别对性别对吧，然后进来这里什么汇总值对吧，那么这个时候他会按照我现在这一字段对吧，来进行一个什么呢？来进行统计对吧？来进行统计对吧，那这里呢，说那我如果这样的话，我能不能这样呢？你现在就汇总了，汇总了那我能不能死在total month，然后从咱们这里边把谁呢，把我们现在这个这个汇总的值给查到，注意啊，这个时候你不能这么查，为什么呢？因为我现在要查的话，是不是有可能有些东西还没来得及聚合呀，对，就有可能我现在有些数据呢，还没来得及汇总，没来及聚合，对，还没有执行咱op，对，那这个时候呢，有可能你得不到这数据，对吧，所以说你要想查总和的话，那最好的方式还是什么呀？还是some是吧，还是some啊，这是关于我们这个sum tree啊sum tree这块。
08:40
对吧，把这块呢停一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据电商项目(实时处理)

（146/174）

2分19秒

001_尚硅谷_实时电商项目_项目介绍

370

11分53秒

002_尚硅谷_实时电商项目_离线架构回顾

350

11分46秒

003_尚硅谷_实时电商项目_实时架构讲解

370

8分45秒

004_尚硅谷_实时电商项目_项目需求介绍

380

10分32秒

005_尚硅谷_实时电商项目_模拟生成数据

400

7分3秒

006_尚硅谷_实时电商项目_SpringBoot介绍

360

20分2秒

007_尚硅谷_实时电商项目_SpringBoot程序创建

360

25分2秒

008_尚硅谷_实时电商项目_创建LoggerController接收模拟器生成数据

390

17分6秒

009_尚硅谷_实时电商项目_利用logback将日志数据落盘

340

25分23秒

010_尚硅谷_实时电商项目_将日志发送到kafka对应的主题中

360

12分36秒

011_尚硅谷_实时电商项目_内容回顾

330

20分20秒

012_尚硅谷_实时电商项目_打包日志处理程序到单台Linux上运行

390

11分23秒

013_尚硅谷_实时电商项目_负载均衡介绍

320

22分58秒

014_尚硅谷_实时电商项目_Nginx安装和启动

330

12分58秒

015_尚硅谷_实时电商项目_Nginx配置文件说明

330

14分0秒

016_尚硅谷_实时电商项目_Nginx常用应用场景

320

17分53秒

017_尚硅谷_实时电商项目_整体流程测试

420

7分32秒

018_尚硅谷_实时电商项目_编写脚本启动Nginx以及日志服务

330

15分13秒

019_尚硅谷_实时电商项目_日活业务介绍

360

16分1秒

020_尚硅谷_实时电商项目_上午内容回顾

430

21分35秒

021_尚硅谷_实时电商项目_ElasticSearch介绍

490

9分10秒

022_尚硅谷_实时电商项目_RestFul编程风格

410

18分56秒

023_尚硅谷_实时电商项目_特点

350

9分36秒

024_尚硅谷_实时电商项目_Lucene、Nutch、ElasticSearch关系

440

25分48秒

025_尚硅谷_实时电商项目_ElasticSearch安装以及单节点启动测试

330

30分59秒

026_尚硅谷_实时电商项目_Kibana安装以及测试

340

13分43秒

027_尚硅谷_实时电商项目_内容回顾

320

33分2秒

028_尚硅谷_实时电商项目_相关概念介绍

420

18分56秒

029_尚硅谷_实时电商项目_对索引的操作

430

27分7秒

030_尚硅谷_实时电商项目_对文档的操作1

360

19分36秒

031_尚硅谷_实时电商项目_对文档的操作2

340

17分34秒

032_尚硅谷_实时电商项目_按分词查询

280

25分29秒

033_尚硅谷_实时电商项目_查询操作1

370

10分46秒

034_尚硅谷_实时电商项目_查询操作2

350

13分30秒

035_尚硅谷_实时电商项目_聚合操作

330

15分0秒

036_尚硅谷_实时电商项目_ik分词器

400

7分34秒

037_尚硅谷_实时电商项目_自定义词库（本地）

370

17分7秒

038_尚硅谷_实时电商项目_自定义词库（远程）

370

27分3秒

039_尚硅谷_实时电商项目_mapping

380

24分20秒

040_尚硅谷_实时电商项目_内容回顾

370

18分55秒

041_尚硅谷_实时电商项目_别名

310

19分58秒

042_尚硅谷_实时电商项目_索引模板

360

30分8秒

043_尚硅谷_实时电商项目_JestFactory对象的创建

330

15分35秒

044_尚硅谷_实时电商项目_向ES中插入单条数据方式1

390

19分6秒

045_尚硅谷_实时电商项目_向ES中插入单条数据方式2

320

6分39秒

046_尚硅谷_实时电商项目_根据id查询索引中的单条文档

320

19分57秒

047_尚硅谷_实时电商项目_根据查询条件查询多条文档1

420

23分56秒

048_尚硅谷_实时电商项目_根据查询条件查询多条文档2

420

6分45秒

049_尚硅谷_实时电商项目_日活业务介绍

320

13分25秒

050_尚硅谷_实时电商项目_搭建日活开发环境

280

9分50秒

051_尚硅谷_实时电商项目_读取配置文件的工具类

380

17分59秒

052_尚硅谷_实时电商项目_读取Kafka数据的工具类

260

16分30秒

053_尚硅谷_实时电商项目_获取Redis客户端工具类

320

28分10秒

054_尚硅谷_实时电商项目_编写SparkStreaming程序消费kafka数据

380

11分44秒

055_尚硅谷_实时电商项目_内容回顾

390

16分28秒

056_尚硅谷_实时电商项目_已经登录设备去重思路分析

430

15分10秒

057_尚硅谷_实时电商项目_通过Redis对已经登录的数据进行去重方式1

420

18分24秒

058_尚硅谷_实时电商项目_通过Redis对已经登录的数据进行去重方式2

380

29分52秒

059_尚硅谷_实时电商项目_将采集到的数据批量保存到ES中业务实现

310

15分46秒

060_尚硅谷_实时电商项目_批量保存ES代码的实现

370

9分51秒

061_尚硅谷_实时电商项目_去重和保存到ES总结

310

20分29秒

062_尚硅谷_实时电商项目_kafka内容回顾1

430

12分17秒

063_尚硅谷_实时电商项目_kafka内容回顾2

320

27分34秒

064_尚硅谷_实时电商项目_kafka内容回顾3

330

14分17秒

065_尚硅谷_实时电商项目_kafka内容回顾4

330

21分5秒

066_尚硅谷_实时电商项目_精准一次性消费方案分析

350

8分30秒

067_尚硅谷_实时电商项目_手动提交偏移量+幂等性处理分析

380

20分13秒

068_尚硅谷_实时电商项目_从Redis中获取偏移量

360

18分25秒

069_尚硅谷_实时电商项目_内容回顾

310

24分53秒

070_尚硅谷_实时电商项目_从指定偏移量读取Kafka数据并获取偏移量位置

330

20分22秒

071_尚硅谷_实时电商项目_保存偏移量到Redis

350

12分33秒

072_尚硅谷_实时电商项目_关于去重

340

25分31秒

073_尚硅谷_实时电商项目_通过kibana进行可视化展示

520

14分34秒

074_尚硅谷_实时电商项目_发布查询接口架构介绍

430

18分26秒

075_尚硅谷_实时电商项目_搭建项目架构

400

23分36秒

076_尚硅谷_实时电商项目_获取当前日活数的Service方法实现

340

14分23秒

077_尚硅谷_实时电商项目_获取日活Controller处理

330

19分58秒

078_尚硅谷_实时电商项目_获取分时日活数Service方法实现

370

15分12秒

079_尚硅谷_实时电商项目_获取分时日活数Controller处理

360

11分28秒

080_尚硅谷_实时电商项目_前端访问数据接口测试

380

3分22秒

081_尚硅谷_实时电商项目_内容回顾

340

25分11秒

082_尚硅谷_实时电商项目_首单业务分析

380

14分35秒

083_尚硅谷_实时电商项目_canal使用场景

360

6分40秒

084_尚硅谷_实时电商项目_canal工作原理

420

24分37秒

085_尚硅谷_实时电商项目_MySQL前期准备工作

350

24分26秒

086_尚硅谷_实时电商项目_canal配置以及单机测试

340

10分6秒

087_尚硅谷_实时电商项目_canal高可用

390

11分19秒

088_尚硅谷_实时电商项目_上午内容回顾

430

32分22秒

089_尚硅谷_实时电商项目_使用canal进行分流处理

380

14分35秒

090_尚硅谷_实时电商项目_封装向Kafka发送数据工具类并对canal分流进行测试

290

26分5秒

091_尚硅谷_实时电商项目_maxwell的安装以及配置

390

27分58秒

092_尚硅谷_实时电商项目_编写BaseDBMaxwellApp对数据进行分流

330

3分12秒

093_尚硅谷_实时电商项目_总结

420

7分18秒

094_尚硅谷_实时电商项目_内容回顾

380

35分26秒

095_尚硅谷_实时电商项目_Hbase回顾1

360

33分54秒

096_尚硅谷_实时电商项目_Hbase回顾2

380

6分54秒

097_尚硅谷_实时电商项目_Phoenix客户端连接工具

400

26分40秒

098_尚硅谷_实时电商项目_封装Phoenix查询工具类

390

12分36秒

099_尚硅谷_实时电商项目_客户端工具问题解决

340

100

23分23秒

100_尚硅谷_实时电商项目_从kafka订单主题中读取数据

340

101

12分3秒

101_尚硅谷_实时电商项目_判断是否首单方案1

320

102

18分17秒

102_尚硅谷_实时电商项目_判断是否首单方案2

440

103

20分32秒

103_尚硅谷_实时电商项目_更新Phoenix中用户消费状态

300

104

6分14秒

104_尚硅谷_实时电商项目_Phoenix客户端连接工具2

310

105

18分42秒

105_尚硅谷_实时电商项目_尚硅谷大数据_实时项目_同批次状态修正

400

106

6分58秒

106_尚硅谷_实时电商项目_总结

350

107

16分29秒

107_尚硅谷_实时电商项目_内容回顾

430

108

27分7秒

108_尚硅谷_实时电商项目_维度表关联分析

370

109

19分48秒

109_尚硅谷_实时电商项目_省份维度表的处理1

410

110

24分40秒

110_尚硅谷_实时电商项目_省份维度表的处理2

330

111

25分40秒

111_尚硅谷_实时电商项目_用户维度表的处理1

420

112

18分2秒

112_尚硅谷_实时电商项目_用户维度表的处理2

290

113

9分52秒

113_尚硅谷_实时电商项目_上午内容回顾

320

114

5分27秒

114_尚硅谷_实时电商项目_和省份维度关联思路

290

115

22分35秒

115_尚硅谷_实时电商项目_和省份维度关联方案1

300

116

18分37秒

116_尚硅谷_实时电商项目_和省份维度关联方案2

350

117

13分0秒

117_尚硅谷_实时电商项目_和用户维度关联

360

118

19分23秒

118_尚硅谷_实时电商项目_保存订单数据到ES中

380

119

11分37秒

119_尚硅谷_实时电商项目_使用Kibana进行可视化

330

120

2分55秒

120_尚硅谷_实时电商项目_总结

350

121

11分2秒

121_尚硅谷_实时电商项目_内容回顾

350

122

13分16秒

122_尚硅谷_实时电商项目_实付分摊介绍

350

123

11分37秒

123_尚硅谷_实时电商项目_从Kafka中读取订单明细数据

330

124

21分24秒

124_尚硅谷_实时电商项目_维度表的创建

350

125

19分9秒

125_尚硅谷_实时电商项目_维度数据处理代码实现

370

126

13分32秒

126_尚硅谷_实时电商项目_订单明细和商品维度关联

350

127

10分58秒

127_尚硅谷_实时电商项目_订单明细和维度关联测试

340

128

18分40秒

128_尚硅谷_实时电商项目_订单和订单明细数据写回Kafka

330

129

26分24秒

129_尚硅谷_实时电商项目_OrderWideApp接收双流数据测试

310

130

27分52秒

130_尚硅谷_实时电商项目_双流Join问题解决方案

310

131

28分8秒

131_尚硅谷_实时电商项目_双流Join代码实现

300

132

12分57秒

132_尚硅谷_实时电商项目_双流合并测试

330

133

18分35秒

133_尚硅谷_实时电商项目_实付分摊需求

370

134

9分38秒

134_尚硅谷_实时电商项目_实付分摊思路介绍

380

135

35分10秒

135_尚硅谷_实时电商项目_实付分摊代码实现

360

136

7分38秒

136_尚硅谷_实时电商项目_实付分摊测试

360

137

27分10秒

137_尚硅谷_实时电商项目_内容回顾

400

138

18分53秒

138_尚硅谷_实时电商项目_ClickHouse介绍

420

139

7分21秒

139_尚硅谷_实时电商项目_安装前准备工作

380

140

16分20秒

140_尚硅谷_实时电商项目_单机安装

370

141

20分46秒

141_尚硅谷_实时电商项目_数据类型

330

142

22分55秒

142_尚硅谷_实时电商项目_三个属性讲解

360

143

9分43秒

143_尚硅谷_实时电商项目_二级索引

390

144

7分19秒

144_尚硅谷_实时电商项目_TTL设置

360

145

10分18秒

145_尚硅谷_实时电商项目_ReplacingMergeTree

340

146

8分46秒

146_尚硅谷_实时电商项目_SummingMergeTree

280

147

16分29秒

147_尚硅谷_实时电商项目_SQL操作

400

148

16分20秒

148_尚硅谷_实时电商项目_副本

400

149

15分6秒

149_尚硅谷_实时电商项目_分片的读取和写入流程

370

150

20分25秒

150_尚硅谷_实时电商项目_分片集群配置

290

151

19分50秒

151_尚硅谷_实时电商项目_保存双流Join后的数据到ClickHouse中1

400

152

25分21秒

152_尚硅谷_实时电商项目_保存双流Join后的数据到ClickHouse中2

330

153

11分21秒

153_尚硅谷_实时电商项目_数据接口架构介绍

380

154

9分40秒

154_尚硅谷_实时电商项目_配置文件属性说明

380

155

17分19秒

155_尚硅谷_实时电商项目_Mapper接口的创建

430

156

8分46秒

156_尚硅谷_实时电商项目_Mapper配置文件说明1

400

157

15分47秒

157_尚硅谷_实时电商项目_没有得到分摊数据问题排查

380

158

15分54秒

158_尚硅谷_实时电商项目_MyBatis映射文件配置

350

159

18分23秒

159_尚硅谷_实时电商项目_上午内容回顾

320

160

19分15秒

160_尚硅谷_实时电商项目_Service层处理代码

330

161

19分40秒

161_尚硅谷_实时电商项目_Controller层处理代码及测试

380

162

17分23秒

162_尚硅谷_实时电商项目_ADS层聚合思路

300

163

16分18秒

163_尚硅谷_实时电商项目_数据库表创建以及查询MySQL工具类封装

390

164

9分9秒

164_尚硅谷_实时电商项目_从MySQL中获取偏移量的工具类封装

320

165

15分9秒

165_尚硅谷_实时电商项目_将数据写回到Kafka

420

166

31分30秒

166_尚硅谷_实时电商项目_内容回顾

420

167

30分51秒

167_尚硅谷_实时电商项目_从Kafka中读取dws层数据

300

168

5分16秒

168_尚硅谷_实时电商项目_scalikejdbc工具介绍

320

169

25分53秒

169_尚硅谷_实时电商项目_保存数据到MySQL（精准一次性第二种实现）

380

170

16分56秒

170_尚硅谷_实时电商项目_发布数据接口程序介绍

410

171

14分38秒

171_尚硅谷_实时电商项目_抽取方法避免踩坑

390

172

17分17秒

172_尚硅谷_实时电商项目_发布数据查询接口

360

173

36分36秒

173_尚硅谷_实时电商项目_DataV数据展示

470

174

37分47秒

174_尚硅谷_实时电商项目_阶段总结

340

146_尚硅谷_实时电商项目_SummingMergeTree

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐