文章/答案/技术大牛

发布

首页视频27_Hudi集成Spark_Shell方式_准备及插入数据

27_Hudi集成Spark_Shell方式_准备及插入数据

2022-12-022022-12-02 16:02:21播放41

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/27_Hudi集成Spark_Shell方式_准备及插入数据.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那接下来我们要做什么事呢？啊，就是呃，准备一些数据啊，准备一些咱们来测试的一个数据，那数据有了之后，呃，来具体的操作一下，各种操作，像插入啊，查询的更新呢，还有增量查询对吧？啊增量的那还有指定时间点的查询啊，删除覆盖等等这些方式啊那么这边呢，不建议大家手敲了，为什么呢？啊有一些需要导入的包啊，那这一块呢，咱们就直接先拷贝啊，来拷贝这些import。好，那都import完成之后，接下来我们是呃。通过它自带的一个类可以去生成数据啊。那指定一个变量是表明，那还有呢，指定一个它的数据的路径，那这边为了快速演示，咱们就用一个本地的就好了。好了，这三个东西来拷贝过来粘贴。
01:00
好了，OK啊。那么大家注意这个数据生成器这个类是谁呢？是护底提供的啊，护底提供的。好了，那么接下来呢，呃，我们就来演示一下插入数据表，我们没有创建对吧？啊，无所谓啊，第一批写入它会判断表是否存在不存在，它就会自己创建了啊啊，所以我们就直接写就可以了，那么看一下这个写法啊，首先呢，我是将。呃，生成了什么呢？十条数据啊，生成十条数据，然后呢，做一个插入啊，这是它固定它的一个API啊，这个就按照这么写就可以了，然后呢，将它转成一个list啊，Stream里面每一个字符串啊，之后呢，将这个数据读成什么呢？通过Spark上下文，然后并行化读取，读取成一个什么呢？读取进来啊，那分区数我指定为二啊，随便啊，然后呢，直接去read Jason就可以了，那读成了一个DF，那通常来讲我们对护底操作都是用的Spark circle语法啊，Spark circle你可以用DF去操作啊，也可以写circle啊。
02:17
好，来，我们把它拿过来。稍等一会儿好，那其实上面这里就是生成的数据，呃，我们转成了这个list，大概就是我们看一条就好了啊。呃，到这里啊，这是一条数据啊，有TS啊UID啊，啊有rider driver啊对吧。等等一些字段，这是一个出行的一个交通数据。好，那接下来我们要将这个DF里的数据写入到whodi里面，那怎么写呢？哎，大家看啊，是其实这个写法如果熟悉Spark应该都熟了，呃，通过DF的right方式去写就可以了，那只要格式指定，为什么whodi，那之所以能够指定为忽底，就是因为咱们已经集成好了那个架包，你已经放进去了，那它就能识别这个忽底格式。接下来下面的这一些写法是忽底特有的啊，跟忽迪集成的时候特有的一些写法，呃，那这边我们是设置了一个quick克斯star啊，快速入门的一个案例配置啊，就简单的配置。另外呢，有几个东西先给大家讲一下，一个叫pre combine field，这个东西是什么呢？呃，Pre buy就是可以理为理解，为什么呢？预聚合字段这个东西主要是通过来去重使用的另外一个东西。
03:51
解释了一叫key啊record key啊，这个就是咱们前面一直在在一直在讲的record key啊，指定record key为UUID这个字段，对吧？那接下来就讲一讲这个有什么用啊，举一个例子啊，比如说我的呃，Record key是呃，有一条数据是一呃，那么呃值是比如说A，然后这个时间戳，比如说是呃十面十吧啊是十。
04:22
那么如果我又来了一条数据。1A，呃，11，其实这个语句和字段就指定了，诶我当我的record key相同的时候，因为我们record key是要保持唯一性对不对？那如果出现重复，它取哪一条啊，哪个值，它会取语句和字段这个值较大的那个数据，比如说有这两条数据啊，Record key都是这个啊，都是一重复了，对吧？那么它就会取下面这条字段啊，假设咱by key指定的是这里的话。他就取大的啊，所以这个可以简单理解为就是驱虫的时候用啊，驱虫的时候用。
05:05
所以你就得呃考虑这个豫句和字段用什么比较合适啊，用什么比较合适，通常来讲常规的就是用一个时间戳字段就就比较理想啊，那这个record key你也得去考虑啊，用什么样的好一点。最好你不要说出现大量重复的，那就不合适了啊，就类似于你去设计数据库，一张表组建，你来怎么设，那其他的就没什么了，这个是一个什么分区的字段啊，用哪一个作为一个分区字段，然后呢表明就没了，然后呢，模式选择一个覆盖，然后保存到路径，这个路径就是护地表的路径啊护地表的路径那你看我们上面已经定义了一对吧，这个base pass。这是一个基本路径，对吧，路径就写到表明，以表明作为一个文件夹的名称就可以了，好吧，好，那就是关于这几个基本参数的解释，那我们来做一下啊。
06:14
啊。好，等他执行完，执行完了对吧？那么接下来我们怎么看呢？来我拷贝一份，呃，在我们指定的这个路径下面，应该是有忽底的目录，生成的忽底表的目录，还有它对应的什么原数据目录啊，数据目录啊来我们来搂一眼啊，这个路径我们定义的是本地文件系统tmp，下面来我们瞅一眼吧，啊，CDTMP，然后呢，看一眼啊，这个有点多对吧？但是我们看到了有一个什么who d chis cow，这个是不是就是咱们建的这个路径了，对吧？进来好再看一眼，那么大家可以看到现在的这个文件夹是什么东西呢？啊，就是分区，就是我们的分区目录，呃，这个就是亚洲对吧，这个是美洲啊，我们的分区是按照这个来的。
07:14
我们看一下这个数据啊，这里有一个字段叫做partition pass啊，我们指定它为分区字段，对吧，它的值有什么呢？什么啊美洲的啊什么什么什么，你大家可以看到这个值是不是什么嵌套的，有三层的吧。那我们随便看一个吧，比如说这这是其中一个分区啊，是一级分区啊，进入这个America's再看一眼，诶，你是不是看到又有一层文件夹了，那是因为咱们使用了多级分区啊，也就是说多级目录了啊，每周下面的这里还有这里啊来随便看一眼，在里面还有一层对吧，还有一层好再来再看就没了吧，这里面只有一个什么文件点。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（27/78）

6分12秒

01_Hudi课程简介

740

10分41秒

02_Hudi概述_简介

640

9分53秒

03_Hudi概述_发展历史&特性

540

5分31秒

04_Hudi概述_使用场景

590

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

670

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

600

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

700

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

500

6分10秒

09_Hudi编译_执行编译命令&jar包位置

560

14分1秒

10_Hudi基本概念_时间轴TimeLine

560

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

480

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

450

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

480

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

630

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

500

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

410

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

630

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

510

7分40秒

68_Hudi集成Flink_离线Clustering

420

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

480

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

27_Hudi集成Spark_Shell方式_准备及插入数据

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐