文章/答案/技术大牛

发布

首页视频52-数据导出-Export方式-原理

52-数据导出-Export方式-原理

2022-12-022022-12-02 16:02:30播放47

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Apache Doris/视频/52-数据导出-Export方式-原理.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
接下来我们来数了解一下数据导出的功能，那数据导出主要有两种方式，一种呢是通过export。任务来导出，其实它底层还得用什么broker啊，这个需要依赖于broker，另外一种是将查询结果直接导出啊，那我们先来看一下export啊。同样的，他得利用broker。导出到远端存储，比如说HDFS，对吧，还有其他的一些，那么我们了解一下它基本原理是什么呢？首先呢，你用户提交一个。导出作业，他会先统计这个作业涉及到的所有数据分片啊，所有的table thatt，然后将这一些tablet进行分组。啊进行分组，每一组呢，它会生成一个特殊的查询计划啊，比如说我一共我这个导出任务涉及到的数据分配有100个，好，那现在分组，比如说是五个一组。
01:00
那这个时候它就会生成几个呢？20个查询计划。对吧，啊，分组执行。那每个分组，每个查询计划会读取自己对应的数据分片啊，然后通过broker写出去啊，这是大概的一个执行过程。那下面我们有详细的一个介绍啊，看这张图，那我们提交作业是提交给谁啊fe，那fe主要做两个事情，第一个叫painting，第二个叫exporting，对吧？Painting呢，其实就是做一个查询计划的拆分，就是我们刚才讲的做一个分组啊，拆分生成多个查询计划之后呢，根据这个查询计划去执行。那我们来具体看一下啊，Fe的一个调度导出调度器啊，它会有两个阶段的动作，第一个阶段叫pending，它生成。一个pending task向be发送快照命令。
02:04
对吧，对所有涉及到的数据分片做一个快的生成多个查询计划啊核心在这里生成多个查询计划，那exporting阶段呢，它是做什么呢？开始执行查询计划。啊，其实就这两件事啊，查询计划的拆分呢，就像我刚才讲的，呃，生成的多个查询计划，每个查询计划是不是只负责一部分的数据分片呢？对吧，那。就是分组嘛，那每个组的数量由什么来决定呢？由fe的一个参数，这个port table number per task，这个参数默认值是五啊，当然你可以去修改，对吧？这个就像我们刚才举的例子，假设涉及到了一共呢，是100个table net。那这个默认分组小组内部的数量是五啊，就每个小组是五个，那就是分成20个组对吧，一个组一个查询计划，那这个参数可以在我们创建作业的时候去指定啊。
03:07
通过作业的属性，不用去改配置文件啊，直接在创建作业时候去指定就可以了。另外一个查询计划是怎么执行呢？其实对应的就是什么第二个阶段啊exporting啊，开始执行，往下看它是什么顺序执行。顺序执行，另外每一个查询计划，它是可能扫描呃多个分片对吧？啊，默认是不是五个，那它是以行的形式进行组织的啊，它是按行来读取的，默认呢是每1024行作为一个批次啊，它是按批出批的方式来处理，另外呢，它也有一个自动重试机制啊，重试呢默认是三次啊。如果三次都失败了，那么就直接整个作业失败退出。另外就是它的一个现象，它导出的时候起的文件名啊。
04:01
首先会建立一个临时的目录啊，大家注意是目录啊，是这种格式的，那后面这串数字是一个作业的ID啊，作业的ID，那数据首先导入到这个临时的目录。当所有的数据都导出后，才会将。这个目录里边这些文件重命名。到。真正的路径下面去，那其实这种方式是为了什么？为了保证一致性，你想想我我导出还会重试对不对？比如说我一共有十行数据，在导出过程中已经导出去五行了。那这个时候失败重试了。失败重试，那如果他又从头倒，那前五行是不是重复了好？那如果从试全部失败，你又重新执行一遍，那是不是这十行重新导入，那之前是不是已经导入了五行，这是不是还有数据重复的问题？那么一般解决这种问题的思路跟所有框架都一样，什么Co呀，Data叉呀，导数据一样的道理，就类似事物的一个操作啊类啊，类似的类啊类事物。
05:14
也就是说啊，我不直接写到正式路径，正式文件，我先将呃数据写出到一个临时的，可能是目录，临时目录下的临时文件，那如果全部成功，我再对他做一个什么rena。对吧，中间任何一个环节出问题，比如说在这个过程。诶，导出到临时路径的时候，临时文件的时候出问题，那是不是不会影响我们啊，真正的那个路径啊。对吧，啊。这个就是保证一致性的一个方式吧，这个原理大部分框架都这么来用的啊，涉及到文件系统的导导导出的时候。行，这个是它的一个相关原理啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Apache Doris

（52/92）

3分21秒

01-课程介绍

500

9分8秒

02-Doris简介-概述

470

11分17秒

03-Doris简介-架构

660

10分33秒

04-Doris编译-安装Docker

570

16分42秒

05-Doris编译-使用Docker镜像编译

480

10分32秒

06-安装要求-软硬件需求

480

5分14秒

07-安装要求-默认端口号

430

9分7秒

08-集群部署-拷贝编译后文件&修改系统限制

390

12分20秒

09-集群部署-部署并启动FE

350

11分23秒

10-集群部署-部署BE

470

12分21秒

11-集群部署-向FE添加BE并启动

510

9分40秒

12-集群部署-部署FS_Broker

400

13分46秒

13-扩容缩容-FE扩缩容

410

4分55秒

14-扩容缩容-BE和Broker的扩缩容

360

9分24秒

15-数据表创建-基本概念

490

11分42秒

16-建表示例-基本语法&字段类型

370

7分53秒

17-建表示例-建表示例介绍

410

14分22秒

18-数据划分-列定义&分区

500

19分28秒

19-数据划分-分桶&多列分区

400

8分36秒

20-数据划分-表属性&引擎

380

9分12秒

21-数据模型-Aggregate模型介绍

390

8分12秒

22-数据模型-Aggregate模型-导入数据聚合演示

410

3分45秒

23-数据模型-Aggregate模型-保留明细数据演示

420

8分8秒

24-数据模型-Aggregate模型-导入数据与已有数据聚合演示

420

4分30秒

25-数据模型-Uniq模型

400

2分26秒

26-数据模型-Duplicate模型

450

7分5秒

27-数据模型-选择建议&聚合模型局限性

410

8分0秒

28-动态分区-原理&使用方式

420

12分52秒

29-动态分区-动态分区规则参数&创建历史分区

380

10分50秒

30-动态分区-动态分区演示

440

16分56秒

31-Rollup-Aggregate模型和Uniq模型的Rollup使用

390

8分35秒

32-Rollup-Duplicate模型的Rollup使用

340

3分28秒

33-Rollup-几点说明

370

7分45秒

34-物化视图-简单介绍&与Rollup区别

550

17分15秒

35-物化视图-原理介绍

510

6分41秒

36-物化视图-案例一演示

430

3分14秒

37-物化视图-案例二演示

290

3分57秒

38-物化视图-案例三演示

390

10分6秒

39-修改表-rename和partition的操作

310

5分32秒

40-删除数据-两种方式

430

7分13秒

41-数据导入-概述

320

18分14秒

42-数据导入-BrokerLoad-原理&语法

420

16分16秒

43-数据导入-BrokerLoad-示例演示

460

10分52秒

44-数据导入-StreamLoad方式

440

9分49秒

45-数据导入-Routine Load语法及参数说明

440

13分8秒

46-数据导入-Routine Load使用演示

510

12分29秒

47-数据导入-BinlogLoad-原理&配置MySQL端

370

8分59秒

48-数据导入-BinlogLoad-配置Canal端

370

3分42秒

49-数据导入-BinlogLoad-准备Doris表&基本语法

410

11分19秒

50-数据导入-BinlogLoad-示例演示

350

3分23秒

51-数据导入-Insert into及S3导入方式的说明

390

6分2秒

52-数据导出-Export方式-原理

470

10分2秒

53-数据导出-Export方式-示例演示

380

5分31秒

54-数据导出-查询结果导出-语法&并发导出

420

13分26秒

55-数据导出-查询结果导出-示例演示

420

7分59秒

56-查询设置-查询内存&查询超时时间

450

28分17秒

57-查询设置-查询重试和高可用&ProxySQL使用演示

370

7分57秒

58-查询-简单查询

460

11分49秒

59-Join查询-Broadcast Join&Shuffle Join

370

15分27秒

60-Join查询-Colocation Join

360

12分8秒

61-Join查询-Bucket Shuffle Join

370

12分47秒

62-Join查询-Runtime Filter原理&使用

350

14分50秒

63-Join查询-Runtime Filter参数说明

420

7分15秒

64-查询-SQL函数说明

460

12分20秒

65-集成Spark-使用Spark-Doris-Connector

880

4分34秒

66-集成Spark-官方Connector的配置项及字段映射

370

3分30秒

67-集成Spark-使用JDBC的方式（不推荐）

350

16分47秒

68-集成Flink-演示

340

12分12秒

69-集成DataX-编译DorisWriter&集成到DataX

350

9分39秒

70-集成DataX-案例演示

450

6分24秒

71-ODBC外部表-使用方式介绍

370

25分21秒

72-ODBC外部表-MySQL外表

440

16分31秒

73-ODBC外部表-Oracle外表

500

9分1秒

74-Doris On ES-原理和使用演示

370

7分9秒

75-Doris On ES-几个建表参数&使用注意

450

19分34秒

76-监控和报警-使用Prometheus和Grafana

430

10分36秒

77-优化-查看QueryProfile统计信息

360

9分31秒

78-优化-Join Reorder

450

10分54秒

79-优化-导入导出任务参数调整

460

6分19秒

80-优化-Bitmap索引&BloomFilter索引

420

4分55秒

81-优化-合理设置分桶分区数

340

8分7秒

82-数据备份及恢复-说明

370

9分18秒

83-数据备份及恢复-备份演示

570

8分35秒

84-数据备份及恢复-恢复演示

380

12分49秒

85-1.0新特性-1.0版本的部署

410

11分7秒

86-1.0新特性-向量化执行引擎

390

4分20秒

87-1.0新特性-Hive外表介绍

420

7分36秒

88-1.0新特性-Hive外表使用示例

400

9分22秒

89-1.0新特性-Table Function函数

400

4分49秒

90-1.0新特性-mySQLDump功能

340

4分35秒

91-1.0新特性-版本通告介绍(1)

330

4分35秒

91-1.0新特性-版本通告介绍

370

52-数据导出-Export方式-原理

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐