文章/答案/技术大牛

发布

首页视频65-集成Spark-使用Spark-Doris-Connector

65-集成Spark-使用Spark-Doris-Connector

2022-12-022022-12-02 16:02:30播放88

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Apache Doris/视频/65-集成Spark-使用Spark-Doris-Connector.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
在实际使用的过程中，我们可能经常要遇到，呃，通过其他的东西来跟Doris做一个集成，比如说我要用Spark来操作读写Doris。还有呢，我想用flink来操作和读写Doris，甚至呢，我想用data叉。呃，来导入数据到Doris，那这些都是我们日常在呃实际使用过程中经常用到的一些框架和工具啊。那甚至还有基于ES的，还有一些odbc的外表，那这些方式呢，我们都会通通的做一个演示，那首先呢，我们准备一张表跟数据啊，回头啊，来读写这张表啊，那字段就很简单啊，Set ID code u PV。然后呢，聚合模型。PV是一个上啊，按照set ID分组啊，没了，就很简单的一张表来。建完之后我们插入几条数据。
01:05
好，那这就完事了，对吧。接下来我们首先准备第一个啊，通过Spark来读写Doris，那准备环境呢，那这边我们以那个代码工程代码的方式给大家简单做一个演示啊，看看怎么写。那首先呢，我这边代码已经准备好了。你先创建一个main工程啊，然后呢，编写破门键的依赖，那导入什么呢？我们挨个看一下。像Spark相关的依赖Spark Spark circle啊，Spark要不要都行啊，我们暂时还没用的。那再往下呢。最主要的是这个依赖。Spark Doris。那么，如果在早。早一阵子，那这个连接器的依赖可能需要自己编译啊，它没有进入到一个中央仓库去，那么目前现在已经有了啊，也就是说不用我们去编译，我们直接导入依赖就可以了，那这个依赖我们看一下，它支持两个系列，第一个是3.1.2的Spark。
02:10
是2.12啊，Spark是三点一系列的啊，基于3.1LA是2.12，那它是兼容，基本上对于你三点叉的Spark都是基本兼容的啊，那你就用这个一呢，那如果你是二系列的Spark，那你可以用一下下面这个一呢，那如果还有其他的需求，那就只能自己去做一个编译了啊。好，那这个依赖导进来啊，那下面就是一些常规的插件啊，SC的一些编译插件啊等等。那这些我也都贴到文档里了啊，这个就是我整个一个破文件啊，大家也可以去瞅一瞅，根据需要，那其次呢。我们先了解一下，按照circle方式。
03:00
Spark circle的方式来读写，那这几个案例都特别简单，我们给大家捋一遍，那首先是创建一个环境，初始化环境。Spark session啊。那因为我是idea直接运行，我直接set master为local星啊，这个就不啰嗦了，那接下来看一下这个语法circle怎么写啊，首先创建的是一个临时的视图。要指定为引擎为。那其次呢，在指定一些配置项。配置像有这几个基本的选项，第一个呢是我们的数据库。名跟表明啊这么一个属性，其次呢，Fe的地址。大家注意这边的端口写的是HTTP的端口啊，HTTP的端口也就是8030，如果你修改了，记得修改成呃对应的HTTP端口，那其次呢，那肯定要有一个用户名跟密码对吧，这都是最基本的配置，那有了之后呢，咱们就可以直接去查了来，比如说我现在查一下。
04:06
好，我把这个注打开，直接带新这一张视图。右键运行。啊，我可能需要重新编译一下先啊，稍等啊，因为修改了代码对吧。啊，我先给它编译一下。好，稍等一下啊。好，那我们运行来看一下效果。
05:01
现在数据查出来了。那你看这边是我们之前插入的数据，我们也可以到这里来查询一下select新from table1。跟这个结果是不是一样的，对吧？一共五条数据，这是通过Spark circle来读取Doris的表，好，那我把它做掉，我切换成写入数据的。那写入呢，也简单，我们用insert into的方式啊，将它进行一个写入啊，那我再写一下Spark circle。相当于说我把这个u name啊改成18个车口。先编译一下。在运行。运行完之后呢，我们可以查这张表，看一下数据就可以了。
06:11
运行完了，运行完了，我们来查一下。是不是这个数据已经成功插入进来了，对吧，从这里就可以看到啊，这是一个Spark circle的方式，那我们还可以通过circle里面的data frame来给大家做一个演示啊，那首先呢，是一个写入数据。啊，我们先看写吧。那你看我在前面先创建了。几条数据把它创建成一个DF对吧？呃，然后呢，这叫Mo data df。之后呢，我对它调用一个right。然后format格式指定为Doris。在之后呢，几个配置项啊，配置项分别是什么呢？库明表明fe地址啊，端口一样写HTTP的端口，用Doris的用户名和密码，那同时我们也可以去指定要写入的字段，对吧，那这边咱们就先注掉全部写入。
07:10
啊，直接做一个save那就可以了，那这边呢，我们准备了几条数据用来做插入，好，那我们直接运行。看一下效果。等他执行完。那么可以看到这中间呢。是这边打印是因为我这里对创建的DF做了一个show啊，可以看到是这三条数据啊，然后呢，往里插往里插，我们直接看Doris的表有没有多出那么几条数据，那从这我们可以看到这几条是不是新插入的对不对。通过DF的方式直接啊。这是通过DF去写，那接下来我们看一个读啊，读的话我把写入的逻辑注释掉，然后呢，将读数据的逻辑打开来，我们看一下它的逻辑啊。
08:13
我先让它编译着啊，先让它编译着，好，那我们来看啊。通过Spark session.read读取，格式指定为Doris。其次又是这几个参数，最基本的一定要库明表明。Fe的地址跟HTTP端口。用户名密码啊，然后呢，我把它售出来啊。就可以了，来，接下来我直行。那么看一下已经执行完毕了，那这边是不是已经展示出来了，只显示五行的原因是什么？只显示。五行，因为我这个瘦的number写的是五啊，那如果我们不写的话，它就不会做一个限制对吧。
09:04
那这样的话，大家也可以再去看一看啊。这是通过DF啊，最关键点在哪里，Format为dori，这个写也好读也好为dori，那关键就在于咱们用了那个connect啊，提供了这种格式。好，这是通过data frame啊，我们去读跟写，那么还有一种方式是RDD。RDD的话，目前只支持一个什么呢。呃。读。啊。现在还只支持读。那我们看一下读取数据啊，很简单啊呃，前面就创面基基本的环境Spark contest，再往下呢，做一个隐私导入啊隐私转换，那么导入了这个类是or RG阿帕奇do Spark啊，然后点下划线就可以了。
10:04
那这个时候我们通过SC就能去调用这个Doris r DD啊，这个也是那个connect给我们提供的啊，提供的好，那进来之后呢，需要这么一个写法，第一个。要指定一个。库明和表明。第二一个。要指定一个其他几个基本参数，第一个呢，HTTP不fe的主机，还有HTTP的端口，还有dollars的用户名跟密码啊，这个根据你实际情况去改啊，然后我将它correct查看一下，那大家可以看到我通过correct去看，所以其实RDD这种更适合什么，将数据读取进来，然后进一步通过RDD的方式对它进行一些处理啊，这样子那我们这里就简单的那看一下。主要是让大家熟悉一个它的特有写法啊。
11:06
啊，这边忘了做一个打印对吧，我们通过for each，然后print。啊，重新执行一下啊，没事编译一下，再执行一下。好运行。那么可以看到结果也是正常的读取和展示出来了，对吧，包括我们前面以前插入了几个数据都有了，全都有啊。那么这几个呢，就是Spark dori k，哎，官方提供了这个。依赖。给我们展示的各种功能，那其实还有一种，但是它是要基于它也可以流失写入啊，是truck的streaming，那利用DF的一个streaming方式可以也可以去写入Doris。
12:10
但是我们目前呢，呃，Start streaming啊，就不去做演示了啊，场景也比较少啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Apache Doris

（65/92）

3分21秒

01-课程介绍

500

9分8秒

02-Doris简介-概述

470

11分17秒

03-Doris简介-架构

660

10分33秒

04-Doris编译-安装Docker

570

16分42秒

05-Doris编译-使用Docker镜像编译

480

10分32秒

06-安装要求-软硬件需求

480

5分14秒

07-安装要求-默认端口号

430

9分7秒

08-集群部署-拷贝编译后文件&修改系统限制

390

12分20秒

09-集群部署-部署并启动FE

350

11分23秒

10-集群部署-部署BE

470

12分21秒

11-集群部署-向FE添加BE并启动

510

9分40秒

12-集群部署-部署FS_Broker

400

13分46秒

13-扩容缩容-FE扩缩容

410

4分55秒

14-扩容缩容-BE和Broker的扩缩容

360

9分24秒

15-数据表创建-基本概念

490

11分42秒

16-建表示例-基本语法&字段类型

370

7分53秒

17-建表示例-建表示例介绍

410

14分22秒

18-数据划分-列定义&分区

500

19分28秒

19-数据划分-分桶&多列分区

400

8分36秒

20-数据划分-表属性&引擎

380

9分12秒

21-数据模型-Aggregate模型介绍

390

8分12秒

22-数据模型-Aggregate模型-导入数据聚合演示

410

3分45秒

23-数据模型-Aggregate模型-保留明细数据演示

420

8分8秒

24-数据模型-Aggregate模型-导入数据与已有数据聚合演示

420

4分30秒

25-数据模型-Uniq模型

400

2分26秒

26-数据模型-Duplicate模型

450

7分5秒

27-数据模型-选择建议&聚合模型局限性

410

8分0秒

28-动态分区-原理&使用方式

420

12分52秒

29-动态分区-动态分区规则参数&创建历史分区

380

10分50秒

30-动态分区-动态分区演示

440

16分56秒

31-Rollup-Aggregate模型和Uniq模型的Rollup使用

390

8分35秒

32-Rollup-Duplicate模型的Rollup使用

340

3分28秒

33-Rollup-几点说明

370

7分45秒

34-物化视图-简单介绍&与Rollup区别

550

17分15秒

35-物化视图-原理介绍

510

6分41秒

36-物化视图-案例一演示

430

3分14秒

37-物化视图-案例二演示

290

3分57秒

38-物化视图-案例三演示

390

10分6秒

39-修改表-rename和partition的操作

310

5分32秒

40-删除数据-两种方式

430

7分13秒

41-数据导入-概述

320

18分14秒

42-数据导入-BrokerLoad-原理&语法

420

16分16秒

43-数据导入-BrokerLoad-示例演示

460

10分52秒

44-数据导入-StreamLoad方式

440

9分49秒

45-数据导入-Routine Load语法及参数说明

440

13分8秒

46-数据导入-Routine Load使用演示

510

12分29秒

47-数据导入-BinlogLoad-原理&配置MySQL端

370

8分59秒

48-数据导入-BinlogLoad-配置Canal端

370

3分42秒

49-数据导入-BinlogLoad-准备Doris表&基本语法

410

11分19秒

50-数据导入-BinlogLoad-示例演示

350

3分23秒

51-数据导入-Insert into及S3导入方式的说明

390

6分2秒

52-数据导出-Export方式-原理

470

10分2秒

53-数据导出-Export方式-示例演示

380

5分31秒

54-数据导出-查询结果导出-语法&并发导出

420

13分26秒

55-数据导出-查询结果导出-示例演示

420

7分59秒

56-查询设置-查询内存&查询超时时间

450

28分17秒

57-查询设置-查询重试和高可用&ProxySQL使用演示

370

7分57秒

58-查询-简单查询

460

11分49秒

59-Join查询-Broadcast Join&Shuffle Join

370

15分27秒

60-Join查询-Colocation Join

360

12分8秒

61-Join查询-Bucket Shuffle Join

370

12分47秒

62-Join查询-Runtime Filter原理&使用

350

14分50秒

63-Join查询-Runtime Filter参数说明

420

7分15秒

64-查询-SQL函数说明

460

12分20秒

65-集成Spark-使用Spark-Doris-Connector

880

4分34秒

66-集成Spark-官方Connector的配置项及字段映射

370

3分30秒

67-集成Spark-使用JDBC的方式（不推荐）

350

16分47秒

68-集成Flink-演示

340

12分12秒

69-集成DataX-编译DorisWriter&集成到DataX

350

9分39秒

70-集成DataX-案例演示

450

6分24秒

71-ODBC外部表-使用方式介绍

370

25分21秒

72-ODBC外部表-MySQL外表

440

16分31秒

73-ODBC外部表-Oracle外表

500

9分1秒

74-Doris On ES-原理和使用演示

370

7分9秒

75-Doris On ES-几个建表参数&使用注意

450

19分34秒

76-监控和报警-使用Prometheus和Grafana

430

10分36秒

77-优化-查看QueryProfile统计信息

360

9分31秒

78-优化-Join Reorder

450

10分54秒

79-优化-导入导出任务参数调整

460

6分19秒

80-优化-Bitmap索引&BloomFilter索引

420

4分55秒

81-优化-合理设置分桶分区数

340

8分7秒

82-数据备份及恢复-说明

370

9分18秒

83-数据备份及恢复-备份演示

570

8分35秒

84-数据备份及恢复-恢复演示

380

12分49秒

85-1.0新特性-1.0版本的部署

410

11分7秒

86-1.0新特性-向量化执行引擎

390

4分20秒

87-1.0新特性-Hive外表介绍

420

7分36秒

88-1.0新特性-Hive外表使用示例

400

9分22秒

89-1.0新特性-Table Function函数

400

4分49秒

90-1.0新特性-mySQLDump功能

340

4分35秒

91-1.0新特性-版本通告介绍(1)

330

4分35秒

91-1.0新特性-版本通告介绍

370

65-集成Spark-使用Spark-Doris-Connector

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐