文章/答案/技术大牛

发布

首页视频36_Hudi集成Spark_SQL方式_删除&覆盖数据

36_Hudi集成Spark_SQL方式_删除&覆盖数据

2022-12-022022-12-02 16:02:21播放50

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/36_Hudi集成Spark_SQL方式_删除&覆盖数据.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那么剩下的就还是这个删除还有覆盖了，那删除了就delete flow啊，Delete flow，那么覆盖还是一个银色的overri，这个就语法跟我们这个have也好，MYSQL也好，没有太大区别，这个我们就快速过啊，那么今天快速的删一下这张表啊，我们先查一下啊。STEM这张表。哎呀，多打了一个符号啊。好，那么可以看到目前这张表就是有一个UUID为一的，对吧？我们要把它干掉啊，那我就delete from这张表VR啊，我们根据它的record，你看它的record key是什么？是UUID啊，值为一对不对？那VRUUID等于一啊，这样就行了。删完之后我们再来查一下这张表，数据就没了吧，那接下来我们要确认一个事儿，这张表是否真的被删了啊，这张表呃，我们是有有没有指定location啊，我们看一下吧，啊，忘了啊。
01:14
我们在建表的时候搜一下这张表明啊，我们并没有指定location，那应该在默认路径了，来，我们来load眼啊，C do mole Spark3.2在里面有一个Spark warehouse，这是默认的路径，对吧？那接下来是一个sparkdi，呃，然后呢，是这张表。这个什么这张表啊。再进来看一眼，诶，其实你看这个PA还在啊，Pocket还在，但是它生成了一个新的PA啊，这个应该是。刚刚执行的，他其实就将原来的数据标记为删除，并没有真正的删掉啊，那会，那那删掉数据怎么清理呢？啊，需要依赖于cleaner这么一个组件，它有对应的清理策略来清理过期的数据，好吧，这个只是说一下，它并不是立马删啊，不是立马删。
02:13
行，这是一个删除，那我们前面是组建字段对吧？啊。那也可以删这张表啊，也删了一下呗，既然都写了，我们过滤条件也可以是一个表达式的啊来。呃，ID有123都有，OK，那这样吧，呃，我们将偶数的删掉对吧，这个是将偶数的删掉对不对？模上二等于零嘛，啊那就删一下呗。那应该是ID为二的，这条数据会被删的。然后再查一下你你看就剩下一跟三了，二没了，好，那除了过滤条件为组件字段，你非组件字段也是可以的，就是很灵活，不一定说过滤条件一定要是组件啊，没有这个限制，呃，T1吧。
03:19
好。那我们将名字为A1的删掉，比如说我把A1下划线一给删了吧，啊，那文档改成跟我一致的啊，方便大家操作啊，好，Name大家知道这个name这个字段并不是record key，你看record key是什么ID？也是可以执行的。但是我们建议你删的时候过滤条件最好是record key，因为它有索引呢，这样效率高啊。嗯，我看看。那再查一下吧。
04:07
哎，你看那个A1下划线一就不见了啊。这条数据就被干掉了啊。好，这个是一个删除，那覆盖呢，就是一个银色的override啊，那这张表咱们刚才也查过了吧，来这个都很简单，就是一个简单语法啊，那现在有数据呗，啊是这样子的啊，长这样，截个图放这儿，接下来我们overri，然后呢，用这么一条数据把它覆盖掉，整体覆盖啊。看效果。好，执行成功之后，我们再select一下。那你看现在就只剩什么，只剩我们插入的这条数据了，原先的这个什么，这三条数据就不见了，而是最新的这条数据啊，被覆盖了啊，没覆盖了，行，这个就是我们的overri，呃，这个下面。
05:04
嗯，顺顺道执行一下吧，这个肯定也直接覆盖不看了啊，另外呢，我们也如果我的表是个分区表啊，你是希望使用动态分区的方式来覆盖啊也可以。比如说这张是个分区表，对不对啊，那这个时候呢，你可以。他会根据咱们这个。最后面的字段顺序作为分区字段去匹配啊，这个就匹配上DT，这个就匹配上HH对不对，这张表有两级分区嘛。那我们用表一吧，原表那个数据被我干掉了，已经啊。这张表看一眼诶，不用我们HDFS看吧，就这张表啊，现在一级分区1209啊，然后呢，HH10啊。有这么一个数据。那查一下呗。
06:00
Select from j where dt等于。等于什么呀？呃。啊，算了，我就不要飞了，我自己肉眼判断吧，啊，那你看这个有没有幺零的。哦，幺零的被我删了是吧。那这样咱们覆盖，呃，覆盖幺幺的吧，那这样就很明显了吧，那你看我现在是不是有个幺幺的，呃，12月9号11点的这条数据是这样子对不对。那我要把它覆盖掉啊，覆盖掉那就执行就可以了。它会自动匹配到对应的分区啊，也就是说你覆盖的时候不要指定分区，你把分区字段的只给呃，对应的有就可以了。之后呢，咱们再来查的话，这条数据已经是什么。
07:05
变了，变成这样子啊，原先是这样，现在变成了这个样子。好，这是一个覆盖，另外你也可以指定分区啊，在插入的时候啊，你指定要覆盖的是哪一个分区，那这样的话，你后边的这个临时结果集就不用再带上分区字段了啊，这就两种用法啊，一个动态一个静态啊，这个大家自己去玩就行了。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（36/78）

6分12秒

01_Hudi课程简介

740

10分41秒

02_Hudi概述_简介

640

9分53秒

03_Hudi概述_发展历史&特性

540

5分31秒

04_Hudi概述_使用场景

590

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

670

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

600

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

700

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

500

6分10秒

09_Hudi编译_执行编译命令&jar包位置

560

14分1秒

10_Hudi基本概念_时间轴TimeLine

560

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

480

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

450

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

480

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

630

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

500

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

410

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

630

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

510

7分40秒

68_Hudi集成Flink_离线Clustering

420

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

480

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

36_Hudi集成Spark_SQL方式_删除&覆盖数据

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐