文章/答案/技术大牛

发布

首页视频14_Hudi基本概念_索引_索引选项

14_Hudi基本概念_索引_索引选项

2022-12-022022-12-02 16:02:21播放48

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/14_Hudi基本概念_索引_索引选项.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那理解完索引的基本原理，接下来我们聊聊细节了，呃，那是从索引的作用来讲，那么接下来忽Di它支持哪一些索引的类型，说白了也就是索引的实现方案，实现方式那么简单总结来讲可以分为四大类啊，四大类第一类呢，就是我们前面讲到了布隆索引，它就是用了布隆过滤器来判断，诶，我对应的这一条数据在不在，那这条数据怎么判断，是不是有个呼D器啊，我在在在，别忘了我把这个截了吧。嗯，就这句话。D key啊。这句话大家时刻记着啊。我们的索引数据其实就是这个东西对吧？啊，就是这个东西，那怎么判断这个key在不在呢？这个我们指定了一个数据键，记录键，还有分区路径跟fire group ID文件ID建立一个唯一映射啊，就判断这个文件组里面这条数据在不在呗，啊那判断在不在布隆是很常用的一种啊，它也是默认的配置啊，那我们前面讲呢，它的优点是什么？效率高，而且我不用依赖外部的系统，数据与索引可以保持一致性，缺点就是布隆这种过滤，布隆过滤这种算法它本身的一个假阳性的问题，说白了就准确率，也就是说你说在他还真不一定在，因为你可能说错了啊，因为他有一个哈希冲突的问题啊。
01:34
那么。那是你说不在，他就一定不在，能理解我意思吧？呃，当然它正常来讲用它也够了啊，也够了啊，就是兼顾效率，另外一个是简单索引，简单索引呢，它其实是将我们更新还有删除操作的，这个新数据跟老数据进行什么交易，那么大家看到这个就知道这个操作特别重了，它实现起来就是思路上最简单，但是它的缺点也超级明显，性能太差，你想想那如果数据一多了呢，你这个蚯蚓那还得了啊。
02:13
对吧，那那那那不行啊。那还有一种叫索引。那什么意思呢？它也不是说h base实现什么算法，而是什么呢？将索引的这个数据存放在h base里，那说明什么？说明你的所有数据太多了啊，太多了，那我们在插入数据的时候，我们是不是要插入分区下面的某一个文件组啊，那这个时候你在插入的过程中，呃，迪呢，他会向h base发起这个请求，读取请求，就查一下这张索引表，看一下呃，这个数据在不在，也就是说它的区别就在于索引的存储位置啊，存储位置。我直我直接将全量的索引都保存在h base，你就现查h base呗，就是这个意思啊，对于小批次的key查询效率是比较高的，这是它的优点，但是缺点也特别明显，什么明显呢？你这是要借助外部系统。
03:13
那你增加了运维的压力，再者说如果h base你用的不好，或者说你配置的不对啊，像什么内存GC啊，还有它的线程啊，各种东西你没配好，也就是说你h base并没有用好，这个时候它的QPS上不去，反而成为你的瓶颈。对吧，所以你用h base index的前提是，嗯，你对h base比较了解，你也知道怎么去让h base发挥出它应该有的性能。好马配好鞍吗？能理解我意思吧，再有一个是库底后期版本就开始支持flink了，那这个时候它因为前面这些是针对于Spark而言的用户，D最早它就支持的一个Spark引擎啊，主要支持Spark引擎，那么后期版本才出了一个支持flink，那这个时候依赖于flink呢，它单独对所有的存储可以存在哪呢？呃，可以存储在flink那个。
04:12
S算子的一个状态里面去啊，可以存到flink的状态，因为flink本身是呃，有状态的计算嘛，对吧，它用了flink的状态作为底层的索引存储。每个数据在写入之前都会计算目标的一个8K的ID啊，它的优点呢，就不同于布隆啊，它避免了每次重复的文件的一个查找。那缺点呢，嗯，缺点我觉得可能的缺点就是对于因为你你这个索引是存在这个flink状态里的嘛，那如果你的这个索引数据特别大，那flink的状态是不是变得特别大。那进一步是不是就会影响flink这个checkpoint。
05:00
是吧，另外一方面会影响咱们flink的资源使用，当然你可以对flink进行大状态的调优，你可以使用DB，你可以开启增量检查点啊等等这些，那就看你对flink熟不熟了，是不是啊。好啊，所以我这边注意写了一点啊，Flink只有一种是什么state base index，你就不存在说什么base啊这一些了。其他的index是Spark可选的配置啊，所以你要注意你用的是什么啊，这个是我们who索引，这个索引里面的可选的不同方案不同类型。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（14/78）

6分12秒

01_Hudi课程简介

690

10分41秒

02_Hudi概述_简介

630

9分53秒

03_Hudi概述_发展历史&特性

530

5分31秒

04_Hudi概述_使用场景

570

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

630

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

560

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

680

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

480

6分10秒

09_Hudi编译_执行编译命令&jar包位置

550

14分1秒

10_Hudi基本概念_时间轴TimeLine

550

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

460

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

440

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

470

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

610

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

490

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

400

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

620

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

460

7分40秒

68_Hudi集成Flink_离线Clustering

410

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

470

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

14_Hudi基本概念_索引_索引选项

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐