文章/答案/技术大牛

发布

首页视频30_ClickHouse高级_建表优化_分区和索引

30_ClickHouse高级_建表优化_分区和索引

2022-12-022022-12-02 16:02:17播放35

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之ClickHouse/视频/30_ClickHouse高级_建表优化_分区和索引.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来一个分区和索引。这个大家还有印象吗？先看这个标题区是什么？你能想到啥？是不是想到一个爬梯一声败啊，好，所以呢，哎，对，Click house，你记住最关键的不是什么组件，什么primary key，对吧，最关键的是什么，我。他去重的时候是不是根据autobi字段去做的呀，而且你的组件是不是也必须是autobi你的字段的前缀呀。就有一些很多细节嘛，你就记住奥特曼是最重要的就行了，好吧，所以咱们在建表的时候，首先分区怎么分好。分区跟have的分区概念它不一样吧，就你可以理解为分目录啊，没没毛病，避免全秒扫描，你用的时候是不是可以在V里面对分区字段进行过滤啊，这跟have来这个对比呢，没有太大的差别啊。
01:02
所以你生产上肯定会分区的吧，那分区原则呢？大家想一想能想到吗？你想想你have表离线数仓怎么分的区，正常来讲是不是按天分区会合适一点，一天一个分区啊，啊没毛病，这个也是最常用的一个用法啊好，那我按大家觉得我按分钟来分析好吗。力度不要太小，要注意分区的数量，好吧，同学们，如果你不按天分区，我的推荐建议是在三五三十个左右的分区，一张表图，大的表呢，我给个数，1亿条，大家注意，咱们是大数据开发，对吧？那么你的数据量不要再动不动就是十万一百万这种级别的，你要考虑随随便便也要500万条以上嘛，对吧，尤其是肯利格号就适合做这个啊，1亿条，那如果你不按天分区，你也不要说只分两个区三个区，那没啥意义，对吧？你可以分几十个区啊，那你说分1000个区呢，就没有太必要了，你要么按天分区，要么就几十个分区，1亿来估算的话，1亿条的话，呃，那还有这个索引呢，大家刚才也谈到了，是什么order by，这边都给大家标红了啊。
02:28
那关键出来了，咱们的all的BY同学们是不是可以多个字段呢？那顺序有没有讲究？对，我既然问的肯定是有讲究的，对吧？大家都是答题高手啊，我希望未来答题也比较顺利啊，那么好，其实有一个讲究是什么呢？呃，越前面是不是越先内索引呢？那你想想你查询频率高的是不是放在前面会好一点，对没没错嘛，就这么简单嘛，就像大家呃拍照或者干嘛摆阵型的时候，是不是个子高的先站前面啊，就按按照那个个子顺序站呗，对吧？或者怎么样啊，或者说你的微信列表啊，比如说你是个海王，你你你是两分半啊是吧，你几天一个换一个，几天换一个，但是总有几个在你聊天列表常常在前面的吧，那是不？
03:28
高频被你索引了呀啊，那你高频索引肯定就放前面嘛，对吧，你联系一下生活的例子都能想明白啊，高频率使用的，高频率查询的写前面啊。还有一个就是。基数特别大的。什么意思啊，不适合做索引链，比如说用户ID，像用户ID这种，咱们就不适合对他做索引，为啥？因为他比如说我有1亿条数据，那是不是用户的ID不同的。
04:07
是不是至少也是大几百万呢，也就是说重复率很少嘛，数据基本都不一样嘛，这种就叫做基数大，基数大啊。像这种就不适合了，因为你每条都都不一样啊，假设我们一条每一条都不一样。完全不一样啊，没有重复数据，那你对他做索引，大家觉得有没有意义啊。比如说我是从一编号到1亿，我要找。当然这个是有规律的，对吧？如果没规律呢，那比如说我要找1万这个编号的人，你是不是得挨个去还是得挨个去找啊，对吧？就是这个原因，基数大，你做索引就没有太大意义，这个了解就行了，那通常语法就是一个法地升拜一个order by啊好，来我们总结一下，总结一下，首先我们电表一定要考虑分区，对吧，避免全表扫描，好另外一点怎么来分区比较好呢？业务上生产上常规是按天来分区，也就是说主要按什么时间，大家注意在老一点的可里格号，你不按时间分区它是不行的。
05:22
老一点的版本它是不按十天分区它是不行的啊，当然新版本你比较灵活了啊，但咱们使用上还是这么来，那如果不按十天分区，那咱们按照一个原则，什么原则啊，一条数据分三呃十到30个左右吗？可以吧。好，这是第一个，大家要记住的，第二一个order by，它会做索引吗？那多个字段顺序有讲究。查询频率高的放前面，基数大的尽量不做索引。什么叫基数大？就是列的，它的重复值很少，量特别大，比如说用户ID啊。
06:12
但当然不是说一定不能做啊，比如说用户ID，咱们官方案例里面，那是截取的官方数据集的建表，你看人家用户ID还是取了，但是他会做一个哈希啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之ClickHouse

（30/64）

13分13秒

01_ClickHouse总体_课程介绍

520

3分24秒

02_ClickHouse入门_课程介绍

510

24分51秒

03_ClickHouse入门_介绍&特点

490

18分36秒

04_ClickHouse入门_安装_准备工作

490

25分11秒

05_ClickHouse入门_安装_单机安装

440

21分38秒

06_ClickHouse入门_数据类型

470

14分16秒

07_ClickHouse入门_表引擎介绍

390

8分24秒

08_ClickHouse入门_MergeTree引擎_简单使用

370

33分24秒

09_ClickHouse入门_MergeTree引擎_分区详解

400

4分27秒

10_ClickHouse入门_MergeTree引擎_主键

370

6分10秒

11_ClickHouse入门_MergeTree引擎_Order by

420

12分6秒

12_ClickHouse入门_MergeTree引擎_二级索引

490

11分59秒

13_ClickHouse入门_MergeTree引擎_TTL

390

11分38秒

14_ClickHouse入门_ReplacingMergeTree引擎

490

10分21秒

15_ClickHouse入门_SummingMergeTree引擎

400

5分19秒

16_ClickHouse入门_开发中引擎的选择

410

14分6秒

17_ClickHouse入门_SQL操作_Update和Delete

380

11分1秒

18_ClickHouse入门_SQL操作_查询和函数介绍

450

13分31秒

19_ClickHouse入门_SQL操作_多维分析函数

400

4分43秒

20_ClickHouse入门_SQL操作_alter&导出

490

18分38秒

21_ClickHouse入门_副本引擎

370

16分32秒

22_ClickHouse入门_分片集群介绍

350

21分52秒

23_ClickHouse入门_分片集群实操

510

3分56秒

24_ClickHouse高级_课程简介

470

8分29秒

25_ClickHouse高级_新版本安装&.官网在线demo介绍

450

8分23秒

26_ClickHouse高级_执行计划_plan&AST

360

5分45秒

27_ClickHouse高级_执行计划_syntax&pipeline

430

4分19秒

28_ClickHouse高级_执行计划_老版本如何查看

300

8分49秒

29_ClickHouse高级_建表优化_注意数据类型

410

6分27秒

30_ClickHouse高级_建表优化_分区和索引

350

8分59秒

31_ClickHouse高级_表参数&写入和删除优化

430

24分19秒

32_ClickHouse高级_CPU参数设置

360

6分7秒

33_ClickHouse高级_内存参数设置

470

2分48秒

34_ClickHouse高级_存储优化

400

10分40秒

35_ClickHouse高级_语法优化规则_准备测试用表

340

4分36秒

36_ClickHouse高级_语法优化规则_count优化

420

9分55秒

37_ClickHouse高级_语法优化规则_子查询重复字段&谓词下推

290

5分53秒

38_ClickHouse高级_语法优化规则_聚合计算外推&聚合函数消除

320

4分55秒

39_ClickHouse高级_语法优化规则_删除重复字段(不同语法下)

490

6分1秒

40_ClickHouse高级_语法优化规则_标量替换&三元运算优化

370

15分32秒

41_ClickHouse高级_单表查询优化_prewhere&采样

370

7分49秒

42_ClickHouse高级_单表查询优化_数据裁剪&Orderby用法

490

5分4秒

43_ClickHouse高级_单表查询优化_避免构建虚拟列

500

4分48秒

44_ClickHouse高级_单表查询优化_使用uniqCombined

440

9分7秒

45_ClickHouse高级_单表查询优化_使用物化视图&其他事项

410

6分55秒

46_ClickHouse高级_多表关联_使用IN代替JOIN

470

4分8秒

47_ClickHouse高级_多表关联_大小表JOIN

450

6分27秒

48_ClickHouse高级_多表关联_谓词下推

420

11分36秒

49_ClickHouse高级_多表关联_字典表&其他

420

8分4秒

50_ClickHouse高级_数据一致性_数据准备

430

2分4秒

51_ClickHouse高级_数据一致性_手动执行

400

9分58秒

52_ClickHouse高级_数据一致性_通过Group by去重

340

14分26秒

53_ClickHouse高级_数据一致性_使用Final&总结

770

8分17秒

54_ClickHouse高级_物化视图_概述

390

9分24秒

55_ClickHouse高级_物化视图_实操

340

8分16秒

56_ClickHouse高级_MaterializeMySQL引擎_概述

330

17分17秒

57_ClickHouse高级_MaterializeMySQL引擎_实操

380

17分6秒

58_ClickHouse高级_常见问题排查

350

4分21秒

59_ClickHouse监控_概述

370

11分44秒

60_ClickHouse监控_Prometheus&Grafana安装

430

3分8秒

61_ClickHouse监控_ClickHouse配置

470

15分55秒

62_ClickHouse监控_配置监控实现

400

26分48秒

63_ClickHouse备份_手动实现备份及恢复

460

22分36秒

64_ClickHouse备份_使用clickhouse-backup

550

30_ClickHouse高级_建表优化_分区和索引

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐