文章/答案/技术大牛

发布

首页视频45-数据导入-Routine Load语法及参数说明

45-数据导入-Routine Load语法及参数说明

2022-12-022022-12-02 16:02:30播放44

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Apache Doris/视频/45-数据导入-Routine Load语法及参数说明.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
接下来我们了解一下另外一个导入方式，Routine load，或者我们也称之为例行导入。那么最主要呢，我们就比如说从数据源，像卡夫卡源源不断的将数据进行导入，那么它是不会停止的。也就类似于我们一个实时的程序，它会不间断的一直在运行，除非呢我们手动将它停止，那这种就适合去从卡夫卡去。实时消费数据。这个是一个root node，那么当前景致是什么？从卡夫卡导入啊，而且呢是。支持无认证的或者SSL方式认证的卡不卡机群，如果你是cover那些可能要不一定。那格式呢，支持CSV，还有Jason。还有一个版本要求卡夫卡呢，是要求大于等于0.10，那么如果是0.80.9，那目前呢，还不直接跑的话是不支持的，那我们可以修改一个兼容性的配置是be的配置是这个version。
01:08
指定它才能兼容，也就是说兼容是可以兼容，我们要多设置一下啊。那它的基本原理特别简单啊，我们看一下这张图，还是客户端提交一个命令给谁啊，给fe，那fe呢，在切分任务。那分分配任务给谁执行，给be执行这边呢，是不需要broke参与啊。嗯。那它怎么实现不间断呢？其实什么不断的产生新的task，完成数据不间断的导入它的底层还是什么是dream no，只不过他帮我们实现了不间断的定期的去生成新的task，去拉数据啊，消费数据，仅此而已啊。那接下来就是对语法的一个介绍了，同学们，那这个语法看起来很简单，但是我们需要给大家讲一下啊。
02:02
那首先看第一个。叫create routine load，这是固定的，然后呢，给它起一个名字，类似于前面用的一个标签对吧，然后指定是导入到Doris的哪张表，所以这个是什么Doris的表明。接下来是一个合并类型，合并类型主要有三种，就是append delete merge append就是数据是直接追加到这张dori表。Delete呢？就类似于按呃取反导入嘛，前面也讲过一个取反导入对不对，就是说我原先导入这张表有123T是123，现在我想把一删除，我们说有一种方式，就是我导入一条数据是一，然后呢，类型我标记为delete，那这条数据导入进来之后，这个一就被抵消掉了。当然数据还在，只不过我们去查询的时候，这个一这个数据就查不到了，对不对，那合并呢，是更复杂的，我可以定义其他的啊。
03:07
对吧，那我们默认不指定，那肯定都是什么。按照一个append来处理啊。那接下来是这个load properties加载属性加载配置，那这边就很多了，第一个。参数有很多，我们看几个重要，第一个是分隔符，列的分隔符，也就是说卡夫卡里的数据你指不定是什么样，对不对，那分隔符我们就可以手动去指定，如果不指定，注意是杠T，也就是一个制表位，这个是大家要注意，特别是你自己去测试的时候，如果你都不指定这些，你结果说支持CSV，你用逗号去，卡夫卡的数据用逗号分隔，但会发现报错，或者说查不到数据，那是因为默认它是按照杠T来的啊，这个是要大家要注意的。第二一个是列的映射关系。这个呢，我们如果不指定啊。
04:00
呃，它是会自动去匹配，但建议指定为什么卡夫卡的每条消息。比如说我用逗号分隔了每条消息是不是可以不一样啊对吧，那很如果你不指定映射列，很容易就被脏数据给给怎么样。就就就就搞乱了，数据就乱了，所以这个列的映射关系还是建议指定，那列呢，我们分为什么呢？映射列还有衍生列，映射列呢。就是说原数据中每个列对应我们目标表的哪些列，也就卡夫卡跟Doris的列关系怎么来对应，怎么来映射啊？那还有一些取巧的用法，比如说Doris的表有三列是K1 K2 V1，卡夫卡里面按照分隔符切分，呃，四列，我只想取其中的三列怎么办？这个时候因为卡夫卡有列明吗？没有。他只能说按照分隔符切分成四列，如果比如说有四列，有1234列。你想把第三列不取，那是很难做到的，那这边我们有办法是什么？给要跳过的列取一个不存在的列名。
05:09
那这样的话，相当于说就实现一个跳过的效果了啊。那比如说我们就可以这么写cars映射嘛啊，然后就是K2K1，然后叉叉叉随便写一个一个不存在的列，那这样相当于说就跳过了呗。然后V1啊这样子。好，衍生链呢。衍生列是指啊，我们在上面用了一个表达式，比如说你用了一个加法，你看这不就表达式啊。那同样这个表达式，你甚至可以写什么case when，甚至还可以cast转换类型，对吧？这个这个表达式就很灵活了啊。那还有一个where。Where，就是一个过滤条件啊。过滤链呢，可以是衍映射力或者是衍生链，这种就是经过映射转换之后的过滤啊，还有可以指定分区。
06:00
啊，指定分区这个没什么好讲的。呃，还有一个删除条件，这个就是合并类型为删除时。呃，合并类型为默句时。的一个用法啊。好，其他的就大家一起看一看就行了啊。那还有一个什么source sequence用于唯一模型啊？嗯。那还有一个原数据的过滤跟VR区别在哪？VR是经过转换映射之后的列，那这个是未经映射未经转换的数据，就就是最最原始的卡普卡数据怎么过滤啊，威尔是经过映射之后怎么过滤啊，不一样啊。好，这是加载属性，那一般的加载属性我们就指定一个列分隔符，还有字段映射关系就够了，其他根据需要去设定，接下来是作业属性，作业属性是一些通用参数啊，那有这么几个，一个是并发。
07:01
对吧，我当前作业希望起几个并发去执行，默认呢是三。但这个并不是说你指定多少他就多少，他还是受很多东西的影响，它是经过这么计算的。一个是啥？取最小值是什么分区数，比如说我分区卡不卡就一个分区，你并发指定为三。它其实真正执行是不是也只有一个并发，因为就一个分区嘛，你用三个并发去跑没意义啊，那还有呢，这个就是指定的这个参数啊，默认是三，还有呢，还得考虑什么be的节点数量，因为be是真正干活的，假设我只有一个be，虽然卡不卡分区是三个参数，也指定三个并发，但是只有一个人干活，你还指望它能并发达到三吗？不可能，是不是，这个也好理解，那还有呢，是一个叫系统的限制，这个是fe的参数，默认呢是无。就默认限制最大的，并发最大，这是天花板啊天花板。那这几个参数去取一个最小值。
08:00
那么大家就知道一下啊。那还有几个呢？是关于控制一个执行时间，还有处理量的，或者说就是跟吞吐相关的啊。第一个呢是什么。最大批次间隔默认是十单位是秒对吧，默认一批次十秒。那么。还有一个行数，还有一个字节数批次的行数默认呢是多少呢？20万。默认20万，那么还有一个通过大小的大小默认字节呢，是100兆到一个G，然后它默认是100兆，那这个你可以根据你的需要去调整啊。就这三个参数。还有一个允许最大的错误的行数。默认是零，就一条都不能错啊，不能出错，那这个你可以根据需要去调。还有严格模式，还有时区，还有格式，像CSV啊。默认是CSV。
09:03
还有一个涨停啊。Jason，数组数组数组对象将进行，相当于说炸开嘛，展平嘛，默认是false啊，大家知道，有这个功能就行。那可以指定Jason的根节点对吧，比如说你嵌套的杰森啊，外层是你不需要的，你需要的是里层的一个，那你可以指定根节点是中间这里就可以了。好，那还有一个就是什么数据源的配置，这个主要是用来指定卡夫卡的参数，像卡夫卡地址端口，卡夫卡的topic，卡夫卡的分区等等，那就是在这里去指定的，好。那这个呢，就是我们的一个routine node参数说明啊，先了解用法你才能去用。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Apache Doris

（45/92）

3分21秒

01-课程介绍

500

9分8秒

02-Doris简介-概述

470

11分17秒

03-Doris简介-架构

660

10分33秒

04-Doris编译-安装Docker

570

16分42秒

05-Doris编译-使用Docker镜像编译

480

10分32秒

06-安装要求-软硬件需求

480

5分14秒

07-安装要求-默认端口号

430

9分7秒

08-集群部署-拷贝编译后文件&修改系统限制

390

12分20秒

09-集群部署-部署并启动FE

350

11分23秒

10-集群部署-部署BE

470

12分21秒

11-集群部署-向FE添加BE并启动

510

9分40秒

12-集群部署-部署FS_Broker

400

13分46秒

13-扩容缩容-FE扩缩容

410

4分55秒

14-扩容缩容-BE和Broker的扩缩容

360

9分24秒

15-数据表创建-基本概念

490

11分42秒

16-建表示例-基本语法&字段类型

370

7分53秒

17-建表示例-建表示例介绍

410

14分22秒

18-数据划分-列定义&分区

500

19分28秒

19-数据划分-分桶&多列分区

400

8分36秒

20-数据划分-表属性&引擎

380

9分12秒

21-数据模型-Aggregate模型介绍

390

8分12秒

22-数据模型-Aggregate模型-导入数据聚合演示

410

3分45秒

23-数据模型-Aggregate模型-保留明细数据演示

420

8分8秒

24-数据模型-Aggregate模型-导入数据与已有数据聚合演示

420

4分30秒

25-数据模型-Uniq模型

400

2分26秒

26-数据模型-Duplicate模型

450

7分5秒

27-数据模型-选择建议&聚合模型局限性

410

8分0秒

28-动态分区-原理&使用方式

420

12分52秒

29-动态分区-动态分区规则参数&创建历史分区

380

10分50秒

30-动态分区-动态分区演示

440

16分56秒

31-Rollup-Aggregate模型和Uniq模型的Rollup使用

390

8分35秒

32-Rollup-Duplicate模型的Rollup使用

340

3分28秒

33-Rollup-几点说明

370

7分45秒

34-物化视图-简单介绍&与Rollup区别

550

17分15秒

35-物化视图-原理介绍

510

6分41秒

36-物化视图-案例一演示

430

3分14秒

37-物化视图-案例二演示

290

3分57秒

38-物化视图-案例三演示

390

10分6秒

39-修改表-rename和partition的操作

310

5分32秒

40-删除数据-两种方式

430

7分13秒

41-数据导入-概述

320

18分14秒

42-数据导入-BrokerLoad-原理&语法

420

16分16秒

43-数据导入-BrokerLoad-示例演示

460

10分52秒

44-数据导入-StreamLoad方式

440

9分49秒

45-数据导入-Routine Load语法及参数说明

440

13分8秒

46-数据导入-Routine Load使用演示

510

12分29秒

47-数据导入-BinlogLoad-原理&配置MySQL端

370

8分59秒

48-数据导入-BinlogLoad-配置Canal端

370

3分42秒

49-数据导入-BinlogLoad-准备Doris表&基本语法

410

11分19秒

50-数据导入-BinlogLoad-示例演示

350

3分23秒

51-数据导入-Insert into及S3导入方式的说明

390

6分2秒

52-数据导出-Export方式-原理

470

10分2秒

53-数据导出-Export方式-示例演示

380

5分31秒

54-数据导出-查询结果导出-语法&并发导出

420

13分26秒

55-数据导出-查询结果导出-示例演示

420

7分59秒

56-查询设置-查询内存&查询超时时间

450

28分17秒

57-查询设置-查询重试和高可用&ProxySQL使用演示

370

7分57秒

58-查询-简单查询

460

11分49秒

59-Join查询-Broadcast Join&Shuffle Join

370

15分27秒

60-Join查询-Colocation Join

360

12分8秒

61-Join查询-Bucket Shuffle Join

370

12分47秒

62-Join查询-Runtime Filter原理&使用

350

14分50秒

63-Join查询-Runtime Filter参数说明

420

7分15秒

64-查询-SQL函数说明

460

12分20秒

65-集成Spark-使用Spark-Doris-Connector

880

4分34秒

66-集成Spark-官方Connector的配置项及字段映射

370

3分30秒

67-集成Spark-使用JDBC的方式（不推荐）

350

16分47秒

68-集成Flink-演示

340

12分12秒

69-集成DataX-编译DorisWriter&集成到DataX

350

9分39秒

70-集成DataX-案例演示

450

6分24秒

71-ODBC外部表-使用方式介绍

370

25分21秒

72-ODBC外部表-MySQL外表

440

16分31秒

73-ODBC外部表-Oracle外表

500

9分1秒

74-Doris On ES-原理和使用演示

370

7分9秒

75-Doris On ES-几个建表参数&使用注意

450

19分34秒

76-监控和报警-使用Prometheus和Grafana

430

10分36秒

77-优化-查看QueryProfile统计信息

360

9分31秒

78-优化-Join Reorder

450

10分54秒

79-优化-导入导出任务参数调整

460

6分19秒

80-优化-Bitmap索引&BloomFilter索引

420

4分55秒

81-优化-合理设置分桶分区数

340

8分7秒

82-数据备份及恢复-说明

370

9分18秒

83-数据备份及恢复-备份演示

570

8分35秒

84-数据备份及恢复-恢复演示

380

12分49秒

85-1.0新特性-1.0版本的部署

410

11分7秒

86-1.0新特性-向量化执行引擎

390

4分20秒

87-1.0新特性-Hive外表介绍

420

7分36秒

88-1.0新特性-Hive外表使用示例

400

9分22秒

89-1.0新特性-Table Function函数

400

4分49秒

90-1.0新特性-mySQLDump功能

340

4分35秒

91-1.0新特性-版本通告介绍(1)

330

4分35秒

91-1.0新特性-版本通告介绍

370

45-数据导入-Routine Load语法及参数说明

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐