文章/答案/技术大牛

发布

首页视频49_ClickHouse高级_多表关联_字典表&其他

49_ClickHouse高级_多表关联_字典表&其他

2022-12-022022-12-02 16:02:17播放42

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之ClickHouse/视频/49_ClickHouse高级_多表关联_字典表&其他.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那后面几个咱们就先介绍介绍一下一些场景啊，一个是分布式表。他们前面这些交是不是都单机表啊，也就是说不是分布式表对吧，那分布式表是要要使用什么global，为啥呢？咱们什么叫分布式表，比如说我现在有三个分片，知道分片啥意思吗？你就理解成三个节点好吧。然后我建建了一张表，它是分布式表，我叫表A，那它的存储位置是不是三三个都有啊，这种就分布式表啊，数据存在多个地方都能组合起来，好，那现在就有一个问题了，我表A跟表B做交引，我A交引B。那你咱们之前说他是把右表加载到内存，然后去找A表里面有没有是吧，那是不是这里得找，这里也得找。
01:01
这里也得找，那它怎么实现的呀，他是不是得把表B分发到每个节点的内存上，比如说它内存占十个G，那他这里是不是有用了十个G，这里用了十个G，这里用了十个G啊，然后每个地方内部进行交对吧。是不是，所以我说即使是分布式，其实最终也是转换成本地交易，但是这样是不是有问题啊。内存问题啊。是吧？就不太好，但这个时候如果是分布式表，我们加上global join前面加上一个global。那它只会什么，不会看接收查询请求的那个节点查询一次，大家注意一次如果不加global会怎么样？每个节点会单独发起一次对右表的查询，也就是说咱们刚才的例子啊，A表它那三个节点，那比如说B表在这，那这个要发起对它的查询，这个要发起对它的查询，这个也要发起对它的查询，如果右表同时是一个分布式表呢？
02:12
三乘三啊，会算啊，那是不是九啊，九次查询啊，那如果是格萝卜，它是什么呢？是不是一共几次啊？在接收请求的那个节点查询一次。嗯。是不是三次就够了，可能。对吧，可能三寸就够了，因为你想想，呃，如果做了，其实更深层的优化是什么？就数据的一个分布情况，你要交的数据难道在三个地方都有吗？能理解这个意思吗？比如说我要交引的某一条数据是ID为一，那它A表而言，它是不是可能在这个分面上，那么对B表而言，是不是在这个分面上，但实际上你是不是只需要这俩做一个交引就行了，你没必要查九次。
03:08
对吧，那如果你能进一步优化到这个程度，是不是更完美，当然这个有一个什么要求你的数据的组织。要有规律吧，这种就比较麻烦，比较复杂了。就比较复杂了，这个有点像咱们hi里面的s MB doing，它是不是使用有条件的，首先你必须分头必须呃指定排序字段对吧，等等等等，还桶的数量还有讲究，你要成比例，两张表的桶数要成比例。就很麻烦啊，所以你要实现到这种效果当然是最好，但可能条件比较苛刻啊，条件比较苛刻，那最好的就是加个global啊，他只会在接收查询请求那个节点查一次。而不是每个节点我人群里面。
04:01
所以你记住，你简单记的话就是一个是N次，一个是N的平方就行了。那这种现象叫什么？查N的平方次叫什么查询放大啊？如果别人，呃，可能别人会跟你问click house，你有没有遇到过查询放大的问题？那你怎么解决的？你要知道说的是啥。首先你要告诉他，查询放大发生在两张分布式表进行join的时候，并且没有加global。然后你又可以给他举例，比如说A3的分辨，B3的分辨。A在三个分片，B在三个分片，那可能就是每个分片都去查对方三个，也就是三乘三嘛，所以是九九个嘛。对吧，那如果加了global可能就不用了啊，他只需要在接收查询请求那个节点就行了，比如说B表可能他只查一或者只查二只查三就行了。
05:01
Global，那还有一个使用字典表，我们数仓有一个概念叫什么数据字典，什么叫数据字典啊，有点像Java里面的常量。或者叫枚举是不是？枚举大家还记得不？枚枚怎么写来着？这不是板吗？一个板一个又是犬，哎，怎么突然傻呢？我，哦，对啊对啊，突然就懵逼了，对吧？昨晚睡了仨小时懵逼了啊，枚举，那咱们枚举是啥呢？是不是一个里面是有几个几个值，然后是固定写死的呀，对吧，字典不就一个意思吗？你你想想你查一个新华字典，你你查一个什么字，它的景色是不是也是固定的呀，就固定词，固定意思，固定位置啊，对吧，那咱们通常就是一张表一些比较死的值。
06:08
那就是把它作为一个字联表，那这边是什么意思？如果你进行交易的时候，你可以把其中一张表创建成字联表，但是它有一个问题。它是常驻内存的，咱们普通交蚓是不是只蚓发生的时候才会把右表加载到内存的，但它不是这点表是永远在临存里面，但是这样有什么好处啊，对坏，所以并不是所有场景都适用啊，并不是所有场景都适用，那字典表在click house里面，可以是自己建的表，也可以是外部的文件。什么意思啊，我我有一个规则啊，比如说一对应的是什么，二对应的是什么，三对应的是什么，对吧？那我是希望通过这个ID join取出它固定的这个值是什么意思。
07:00
那这个时候如果数据量不大，你可以把它呃存在一个文件里，然后呢，丢到服务器上面配之后你在可house通过字典表的语法把它映射上，当然配置文件也得改啊，配置文件也得改，那就行了，那就变成一张字典表了。你先知道这回事儿啊。那如果你要看语法，我告诉你在哪啊，这块咱们先不做介绍啊，看在我们的circle。哎，我想想在哪啊，应该是安井吧，嗯。不在这儿，那就是这，我忘了在哪里了。啊，这里在什么呢？Reference，然后里面有一个字典。在这里它分为什么，诶怎么一下就跳进来了，是不是一个内部的，一个外部的，内部就是你建的表，外部就是可能来源于外部文件，也可以来源于MYSQ啊等等等等，那你可以选择其中一个，比如说内部的。
08:13
啊，没有案例啊。外部的这个我们去细看啊。它外部的分为这么多步骤，这个我们先做一个了解，好吧，一个字典表。那我们后面也有个例子，可能会用到一个简单的临时呃字典啊临时字典，那还有一个这个就其实咱们前面也讲了一个总原则，能提前过滤掉数据的提前过滤，包括咱们前面所谓的位置下推，是不是也是希望提前减少数据量，对吧？那你也可以你要主动去加，对吧？包括什么呢？咱们前面提到的什么列裁剪，分区裁剪，也就是说字段选，你想要不要全选分区呢？选择你需要的分区，这些不管是什么，其实咱们就一句话呗。
09:12
提醒，减少什么查询的数据量？Have是不也一个道理啊，你想想那些所谓的优化是不是都在想方设法减少数据量，对吧？这是一个总原子啊总原子。嗯，好，那我们现在一起回顾一下，多表观点，关于这一些，你应该总结出什么？来，我们稍微敲两句啊。就CK的，就首先你需要知道这么一个景点啊，首先它的原理是什么，右表加载到内存对吧，然后再去匹配。好，第二个为什么就用不行。
10:07
呃，老师说他不行，因为一。对吧，是因为它的原理嘛，对吧，好第三一个那有一些非要使用注意事项。怎么用比较好？呃，其实就把那几点综合，能过滤先过滤对吧，能过滤先过滤特别是什么右表对吧？另外我们注意右边放小表，这些都差不多意思，然后第三个，呃，特殊场景可以考虑使用时间表，其实你想想如果数据量不大。你这个表在那也无所谓嘛，对吧，你长度内存也提升不是很大，因为本来数据不大，我读一下。
11:06
又不会打的。还有一个呃，可以替换的话。尽量不要用旧音，比如用in来实现，对吧？当然印不是万能的，不是万能的对吧，某些场景才可以替换。这是咱们要知道的几件事。嗯。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之ClickHouse

（49/64）

13分13秒

01_ClickHouse总体_课程介绍

520

3分24秒

02_ClickHouse入门_课程介绍

510

24分51秒

03_ClickHouse入门_介绍&特点

490

18分36秒

04_ClickHouse入门_安装_准备工作

490

25分11秒

05_ClickHouse入门_安装_单机安装

440

21分38秒

06_ClickHouse入门_数据类型

470

14分16秒

07_ClickHouse入门_表引擎介绍

390

8分24秒

08_ClickHouse入门_MergeTree引擎_简单使用

370

33分24秒

09_ClickHouse入门_MergeTree引擎_分区详解

400

4分27秒

10_ClickHouse入门_MergeTree引擎_主键

370

6分10秒

11_ClickHouse入门_MergeTree引擎_Order by

420

12分6秒

12_ClickHouse入门_MergeTree引擎_二级索引

490

11分59秒

13_ClickHouse入门_MergeTree引擎_TTL

390

11分38秒

14_ClickHouse入门_ReplacingMergeTree引擎

490

10分21秒

15_ClickHouse入门_SummingMergeTree引擎

400

5分19秒

16_ClickHouse入门_开发中引擎的选择

410

14分6秒

17_ClickHouse入门_SQL操作_Update和Delete

380

11分1秒

18_ClickHouse入门_SQL操作_查询和函数介绍

450

13分31秒

19_ClickHouse入门_SQL操作_多维分析函数

400

4分43秒

20_ClickHouse入门_SQL操作_alter&导出

490

18分38秒

21_ClickHouse入门_副本引擎

370

16分32秒

22_ClickHouse入门_分片集群介绍

350

21分52秒

23_ClickHouse入门_分片集群实操

510

3分56秒

24_ClickHouse高级_课程简介

470

8分29秒

25_ClickHouse高级_新版本安装&.官网在线demo介绍

450

8分23秒

26_ClickHouse高级_执行计划_plan&AST

360

5分45秒

27_ClickHouse高级_执行计划_syntax&pipeline

430

4分19秒

28_ClickHouse高级_执行计划_老版本如何查看

300

8分49秒

29_ClickHouse高级_建表优化_注意数据类型

410

6分27秒

30_ClickHouse高级_建表优化_分区和索引

350

8分59秒

31_ClickHouse高级_表参数&写入和删除优化

430

24分19秒

32_ClickHouse高级_CPU参数设置

360

6分7秒

33_ClickHouse高级_内存参数设置

470

2分48秒

34_ClickHouse高级_存储优化

400

10分40秒

35_ClickHouse高级_语法优化规则_准备测试用表

340

4分36秒

36_ClickHouse高级_语法优化规则_count优化

420

9分55秒

37_ClickHouse高级_语法优化规则_子查询重复字段&谓词下推

290

5分53秒

38_ClickHouse高级_语法优化规则_聚合计算外推&聚合函数消除

320

4分55秒

39_ClickHouse高级_语法优化规则_删除重复字段(不同语法下)

490

6分1秒

40_ClickHouse高级_语法优化规则_标量替换&三元运算优化

370

15分32秒

41_ClickHouse高级_单表查询优化_prewhere&采样

370

7分49秒

42_ClickHouse高级_单表查询优化_数据裁剪&Orderby用法

490

5分4秒

43_ClickHouse高级_单表查询优化_避免构建虚拟列

500

4分48秒

44_ClickHouse高级_单表查询优化_使用uniqCombined

440

9分7秒

45_ClickHouse高级_单表查询优化_使用物化视图&其他事项

410

6分55秒

46_ClickHouse高级_多表关联_使用IN代替JOIN

470

4分8秒

47_ClickHouse高级_多表关联_大小表JOIN

450

6分27秒

48_ClickHouse高级_多表关联_谓词下推

420

11分36秒

49_ClickHouse高级_多表关联_字典表&其他

420

8分4秒

50_ClickHouse高级_数据一致性_数据准备

430

2分4秒

51_ClickHouse高级_数据一致性_手动执行

400

9分58秒

52_ClickHouse高级_数据一致性_通过Group by去重

340

14分26秒

53_ClickHouse高级_数据一致性_使用Final&总结

770

8分17秒

54_ClickHouse高级_物化视图_概述

390

9分24秒

55_ClickHouse高级_物化视图_实操

340

8分16秒

56_ClickHouse高级_MaterializeMySQL引擎_概述

330

17分17秒

57_ClickHouse高级_MaterializeMySQL引擎_实操

380

17分6秒

58_ClickHouse高级_常见问题排查

350

4分21秒

59_ClickHouse监控_概述

370

11分44秒

60_ClickHouse监控_Prometheus&Grafana安装

430

3分8秒

61_ClickHouse监控_ClickHouse配置

470

15分55秒

62_ClickHouse监控_配置监控实现

400

26分48秒

63_ClickHouse备份_手动实现备份及恢复

460

22分36秒

64_ClickHouse备份_使用clickhouse-backup

550

49_ClickHouse高级_多表关联_字典表&其他

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐