文章/答案/技术大牛

发布

首页视频81-优化-合理设置分桶分区数

81-优化-合理设置分桶分区数

2022-12-022022-12-02 16:02:30播放34

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Apache Doris/视频/81-优化-合理设置分桶分区数.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那最后呢，我们就聊一个，呃，分区分总数设多少比较合适啊，那首先我们了解到一个表的数据，分片的总数等于多少呢？是不是等于我的分区数乘以它的每个分区的分统数啊，这是不是总的一个数据分片的数量啊？那这个数量我们控制在多少比较合适呢？啊，在不考虑扩容的情况下，略多于整个集群的磁盘数量，那这样的话可能呃，IO情况就比较好了。那单个数据分片你设多大设多小都行，但我们官方给的建议值是一到十个G的之间。那我们想一想，如果太小会怎么样，太小了你是不是比较分散呢？那这样我们聚合效果就不太好啊，那而且呢，每一份都要从一个元数据，那元数据的大小就变大了，它的压力就变大了，对吧？那如果数据量过大怎么办呢？
01:01
数据量，呃，单个分片的数据量大一点啊，就相当于是比较重啊，跟一个胖子一样，那不利于我们副本的迁移补提。对吧，因为你你要动的话，比如说其中你要只动某一块数据，那你必须整个分配一起动。啊，你不能只动它啊。而且会增加我们那个什么做一个表结构变更啊，Stemmer信息变更，或者我们roll up他从事的时候，它代价是不是也很大，因为它们的力度是以一个数据分配一个table right为单位去处理的，对吧。那如呃，那前面呢，我们其实一个是根据数据量，另外一个是数量，这有两个原则，那如果他们两个有冲突优先呢，我们建议是按照什么数据量这个原则来啊，这样比较合理。另外一些注意事项呢，就是建表时候，每个分区正常分统数是呃，统一指定表的时候啊，那这样每个分区都一样，但是我们说如果是动态增加分区啊。
02:10
啊，我们增加分区的时候，因增加的分区可以单独指定分桶数啊，这个前面也是讲过，那同样可以增加，也可以指定，呃，它的分桶数量少一点都行。另外要注意一个分区，分桶数量指定后不可更改。对吧，后期你节点扩容，你想要增加他的一个，呃。啊，那可能效果没那么好啊。那下面有个例子，你看，呃，假如呢。我们有十台be节点，每台be只有一块磁盘，那表的为500兆大小。那我们考虑它的分片数可以是几个呢？啊，四到八个分片。
03:00
对不对。这很合理吧啊。呃，那五个G的一张表，那就是八到16个50G呢啊，一般给个32个。当然了，前面我们说的这几个例子，它呢是。单分区，也就是说只分筒对不对，只分筒，那这样其实分开之后每一个才才多大呀，啊四到八每一个100多兆到100多兆对吧，那这个呢。每个差不多也是几百兆对吧，控制每个分片几百兆，其实是比较比较常用的啊，那比如说这个三除以三十二五个G除以32个分，呃。分片数。那差不多一个，我想想啊。也是差不多200兆左右吧，100多兆吧，啊这个都是一些比较建议的一个情况。啊，这是是不是根据数据量大小来做一个啊区分，那么如果超过500个G啊，或者达到了上百G的一张表，那这个时候我们建议还是要做一个分区啊，这也很常用，每个分区50G，那就可以按照之前这个原则了啊，50个G，那我就几十个分片啊，16~32都可以。
04:17
那同样如果你是5TB的一张表，那你也是分区，把每个分区平均控制在50个G，那还是怎么样，每个分区16~32个分片。那表的数据量就你就看一下就行了，受就行了。那而且你要注意这个data它是包含了副本大小，比如说我一张表是十个G，那受德塔看到，比如说我副本数是三，那看到就是30个G啊，所以你在算一张表的数据量的时候，受data塔看完之后要除以一个副本数。这就完事了。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Apache Doris

（81/92）

3分21秒

01-课程介绍

500

9分8秒

02-Doris简介-概述

470

11分17秒

03-Doris简介-架构

660

10分33秒

04-Doris编译-安装Docker

570

16分42秒

05-Doris编译-使用Docker镜像编译

480

10分32秒

06-安装要求-软硬件需求

480

5分14秒

07-安装要求-默认端口号

430

9分7秒

08-集群部署-拷贝编译后文件&修改系统限制

390

12分20秒

09-集群部署-部署并启动FE

350

11分23秒

10-集群部署-部署BE

470

12分21秒

11-集群部署-向FE添加BE并启动

510

9分40秒

12-集群部署-部署FS_Broker

400

13分46秒

13-扩容缩容-FE扩缩容

410

4分55秒

14-扩容缩容-BE和Broker的扩缩容

360

9分24秒

15-数据表创建-基本概念

490

11分42秒

16-建表示例-基本语法&字段类型

370

7分53秒

17-建表示例-建表示例介绍

410

14分22秒

18-数据划分-列定义&分区

500

19分28秒

19-数据划分-分桶&多列分区

400

8分36秒

20-数据划分-表属性&引擎

380

9分12秒

21-数据模型-Aggregate模型介绍

390

8分12秒

22-数据模型-Aggregate模型-导入数据聚合演示

410

3分45秒

23-数据模型-Aggregate模型-保留明细数据演示

420

8分8秒

24-数据模型-Aggregate模型-导入数据与已有数据聚合演示

420

4分30秒

25-数据模型-Uniq模型

400

2分26秒

26-数据模型-Duplicate模型

450

7分5秒

27-数据模型-选择建议&聚合模型局限性

410

8分0秒

28-动态分区-原理&使用方式

420

12分52秒

29-动态分区-动态分区规则参数&创建历史分区

380

10分50秒

30-动态分区-动态分区演示

440

16分56秒

31-Rollup-Aggregate模型和Uniq模型的Rollup使用

390

8分35秒

32-Rollup-Duplicate模型的Rollup使用

340

3分28秒

33-Rollup-几点说明

370

7分45秒

34-物化视图-简单介绍&与Rollup区别

550

17分15秒

35-物化视图-原理介绍

510

6分41秒

36-物化视图-案例一演示

430

3分14秒

37-物化视图-案例二演示

290

3分57秒

38-物化视图-案例三演示

390

10分6秒

39-修改表-rename和partition的操作

310

5分32秒

40-删除数据-两种方式

430

7分13秒

41-数据导入-概述

320

18分14秒

42-数据导入-BrokerLoad-原理&语法

420

16分16秒

43-数据导入-BrokerLoad-示例演示

460

10分52秒

44-数据导入-StreamLoad方式

440

9分49秒

45-数据导入-Routine Load语法及参数说明

440

13分8秒

46-数据导入-Routine Load使用演示

510

12分29秒

47-数据导入-BinlogLoad-原理&配置MySQL端

370

8分59秒

48-数据导入-BinlogLoad-配置Canal端

370

3分42秒

49-数据导入-BinlogLoad-准备Doris表&基本语法

410

11分19秒

50-数据导入-BinlogLoad-示例演示

350

3分23秒

51-数据导入-Insert into及S3导入方式的说明

390

6分2秒

52-数据导出-Export方式-原理

470

10分2秒

53-数据导出-Export方式-示例演示

380

5分31秒

54-数据导出-查询结果导出-语法&并发导出

420

13分26秒

55-数据导出-查询结果导出-示例演示

420

7分59秒

56-查询设置-查询内存&查询超时时间

450

28分17秒

57-查询设置-查询重试和高可用&ProxySQL使用演示

370

7分57秒

58-查询-简单查询

460

11分49秒

59-Join查询-Broadcast Join&Shuffle Join

370

15分27秒

60-Join查询-Colocation Join

360

12分8秒

61-Join查询-Bucket Shuffle Join

370

12分47秒

62-Join查询-Runtime Filter原理&使用

350

14分50秒

63-Join查询-Runtime Filter参数说明

420

7分15秒

64-查询-SQL函数说明

460

12分20秒

65-集成Spark-使用Spark-Doris-Connector

880

4分34秒

66-集成Spark-官方Connector的配置项及字段映射

370

3分30秒

67-集成Spark-使用JDBC的方式（不推荐）

350

16分47秒

68-集成Flink-演示

340

12分12秒

69-集成DataX-编译DorisWriter&集成到DataX

350

9分39秒

70-集成DataX-案例演示

450

6分24秒

71-ODBC外部表-使用方式介绍

370

25分21秒

72-ODBC外部表-MySQL外表

440

16分31秒

73-ODBC外部表-Oracle外表

500

9分1秒

74-Doris On ES-原理和使用演示

370

7分9秒

75-Doris On ES-几个建表参数&使用注意

450

19分34秒

76-监控和报警-使用Prometheus和Grafana

430

10分36秒

77-优化-查看QueryProfile统计信息

360

9分31秒

78-优化-Join Reorder

450

10分54秒

79-优化-导入导出任务参数调整

460

6分19秒

80-优化-Bitmap索引&BloomFilter索引

420

4分55秒

81-优化-合理设置分桶分区数

340

8分7秒

82-数据备份及恢复-说明

370

9分18秒

83-数据备份及恢复-备份演示

570

8分35秒

84-数据备份及恢复-恢复演示

380

12分49秒

85-1.0新特性-1.0版本的部署

410

11分7秒

86-1.0新特性-向量化执行引擎

390

4分20秒

87-1.0新特性-Hive外表介绍

420

7分36秒

88-1.0新特性-Hive外表使用示例

400

9分22秒

89-1.0新特性-Table Function函数

400

4分49秒

90-1.0新特性-mySQLDump功能

340

4分35秒

91-1.0新特性-版本通告介绍(1)

330

4分35秒

91-1.0新特性-版本通告介绍

370

81-优化-合理设置分桶分区数

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐