文章/答案/技术大牛

发布

首页视频41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

2022-12-022022-12-02 16:02:21播放38

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，现在万事俱备啊，就差最后一个事儿了，执行命令开始导入，在此之前呢，我们先把这个whodi us包拷贝到Spark的class Spark的路径下，那否则啊，如果你指定的是嗯，在其他地方的路径啊，也就是Spark读取不到它就会报错一些，找不到类核方法啊，那所以强烈建议把这个包先放到这个驾驶里面去啊，那我就直接拷贝了，前面这个路径跟我的是一样的。好，拷过来进来驾驶看一下啊，你看这个uts包已经进来了，好了，这个包拷过来之后就可以运行这个命令，那这个命令呢，我拷贝过来，大家一起看一下是什么意思，好，那你看第一个呢，Spark sum me对吧，提交第二一个呢，杠杠class hold底工具类的名称，这固定啊不变。
01:01
接下来一个参数是什么呢？这个东西就是这个us包的路径在哪里，在这里是不是我已经放到Spark3.2.2架驶好，接下来是priorities配置文件，指定配置文件，那我们有四个对吧？我们只需要指定主要的卡卡source就好了，那其他的三个的读取路径都在卡不卡source当中指定的对吧？啊，它另外指定的三个需要的啊，那你要记得能对应起来啊，那接下来就是两个要注意的，第一个STEM provide，我们说了用的不是con那个东西，嗯。而且我们用的是定义文件来定义STEM，对吧？那所以我们要选择fire base。啊，STEM provide啊，不要忘了，然后这个source卡class呢，我们来源是卡夫卡啊，数据格式是Jason，所以我们用的是JA森卡夫卡source用什么就写什么，好接下来这个就是什么排序字段啊，按照UIID就完了，呃，目标也就是忽底的表路径啊，那我是打算放在tmp忽Didi test。
02:09
这个就是回头护地表明对不对啊，然后在target table地test。Op呢，就是操作写操作，我们有UPSINS色报in色都可以默认upset，那我现在用用这个也可以吧，啊表类型MR好没了，呃，那接下来看一下我的这个路径啊，TP护底，TP护底是没有这张表的，现在。那把命令拷过来执行一下。没车。嗯。你要是前面的准备步骤，比如说配置文件的配置，还有那个架包的准备，包括编译时排除一些依赖冲突。啊，都是按照我们这边做的话，你执行这个是能正常跑的，否则你会出现一些版本冲突，依赖冲突的问题啊。
03:07
那稍等一会儿啊。好，那一会儿之后呢，我们可以看到它基本上都是O，而且也没有什么异常信息，对吧，那应该是OK了，我们看一下HDFS路径有没有生成那个表路径啊刷一下。诶，发现多了一个什么who d test啊点进来哎，发现有原数据目录，Who底还有一些分区路径啊，因为我生成的数据那个partition就是纯粹数字而已啊点一下。呃，大家可以看到都是什么PA文件，那么PA呀。不是Mo表吗？怎么没有那个点log呢啊，我们用报ins色，并且呢，这个德尔塔stream会帮我们做什么compassion啊，所以执行完肯定都是回的。那么最后呢，我们来验证一下这个数据啊，那我们来查询一下，那我们还是用Spark circle交互式命令行的方式来查。
04:04
他这个启动命令跟前面的一样的，我们直接拷贝过来。好，呃，我记得咱们之前用的是一个Spark护底在数据库对吧，用哪个库无所谓了，因为我们只是建立一个映射而已啊，Show tables。瞅一眼，诶，这边是没有那个护地test对吧？那么接下来咱们来见表，关键在于现在是一张已经存在的。那已经存在的话，怎么做呢？对吧，这个蝴d test是已存在的，也有元数据的，也有这些了，那简单，我们只需要指定location就行了，甚至我们都不需要再去定义字段的，你看我的写法啊，Create table蝴test优先库，然后指定一个location为这张表的路径即可啊，其他的就不用多做了呗，啊，这个前面建表我们也讲过了，来试一下。
05:09
好，So tables。呃，让我瞅一眼啊，你看who d test，那我们来查询一下它who d test，我们应该是有1000条数据啊。诶，你看数据出来了啊，抓取了1000条啊。对吧，好，这个就是德尔塔STEM，咱们一个演示案例啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（41/78）

6分12秒

01_Hudi课程简介

740

10分41秒

02_Hudi概述_简介

640

9分53秒

03_Hudi概述_发展历史&特性

540

5分31秒

04_Hudi概述_使用场景

590

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

670

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

600

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

700

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

500

6分10秒

09_Hudi编译_执行编译命令&jar包位置

560

14分1秒

10_Hudi基本概念_时间轴TimeLine

560

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

480

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

450

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

480

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

630

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

500

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

410

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

630

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

510

7分40秒

68_Hudi集成Flink_离线Clustering

420

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

480

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐