04_Hudi概述_使用场景

2022-12-022022-12-02 16:02:21播放52

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/04_Hudi概述_使用场景.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那么了解忽地的，咱们再来聊一聊咱们用户地可以用来做什么事情啊，也就是说我们能够落地的一些使用场景啊，那简单的咱们就总结了这么几个啊，第一个是可以进实时的写入啊，进实时。那么可以减少咱们一些碎片化工具的使用。可以通过CDC工具增量的导入咱们关系型数据库的数据，像MYSQL这种对吧？关系型数据库那还可以呢，咱们前面也讲了自动管理小文件啊，那它可以限制小文件的大小跟数量，也就是说咱们可以设一些参数啊，呃，通过这些参数来控制文件的数量，控制文件的大小，这个可以很灵活的来配置。另外一个就是进实时的分析啊，为什么说进实时呢？呃，因为咱们正常来讲因忽底的话，如果你想做到那种毫秒级的响应，毫秒级出结果，毫秒级的延迟，或者说是很短的秒，比如说几秒钟之内五秒。
01:05
三秒五秒这样子啊，那可能实现是可以实现，但是可能没有那么尽如人意，更多的来讲，咱们能达到这个分钟级的这种延迟啊，已经非常啊理想了，也能满足满足咱们大部分的一个要求了。相对于这些秒级的存储，就时序数据库啊，对吧，这种是时序数据库，它会更加的节省资源啊，这也是从性能延迟，还有一个呃，资源方面的一个衡量啊，我咱们肯定是这种更合适的，没必要追求极致对吧。提供分钟级的时效性啊，支持更高效的插曲，我们说了，之所以支撑到分钟性能更好呢，是因为这样会更高效啊。还有一点就护理作为一个依赖，它非常的清亮，这句话怎么理解呢？哎，大家想想，咱们用一些比如就就以亥服为例吧。
02:08
T，咱们要部署它，咱们以人工，呃，就手工部署为例，你首先是不是要有一个安装包。编译好的安装包，这个安装包咱们是不是要上传服务器。上传服务器之后，咱们是不是进行一个解压对吧，解压完之后是不是修改它的配置文件，修改完之后呢，是不是去启动啊，Hi相关的服务，像hi的那个原数据服务，或者have serve two这些服务啊，也就是说它是需要部署需要单独启动的一个东西，对不对啊，那作为忽底它需要这样吗？不需要，你只需要什么呢？编译完的护底相关的，比如说我举个例子，你要跟flink集成，你只需要什么呢？将你编译好了flink忽底这么一个架包，这只是一个架包，你把它放到flink的class pass，简单来讲就是放到flink的一代路径之后呢，你用FNK就能去操作护体表了，很简单吧。另外呢，比如说你用的是Spark引擎也可以，你只需要将编译完的这个sparkdi的这个架包，一个架包也是，一个架包也是。
03:21
是放到Spark的依赖路径就可以了，那么你启动一个Spark就能够去呃读写固体表啊，去查询固体表，那同样的道理，像pstal啊啊也一样的啊，都是通过一个架包的方式作为一个依赖，你把它放到对应的引擎当中就可以了啊，非常的清亮啊，还有呢，增量排徊nine。当然这里区分的是到达时间跟事件时间，如果熟悉flink或者熟悉流逝处理场景下的数据乱序问题啊，就时间语义呗。
04:00
那其实它也是区分这两个东西，可以处理一些延迟的数据，也就是说对乱区有一定的支撑吧，啊另外呢，更短的调度间隔，减少端到端的延迟，对吧，那也就是说其实还说了这个事儿，咱们可以达到一通过增量达到一个分钟级的啊时效性。作为一个增量管道来处理啊，就不不间断的一直在增量的处理，你可以流失的，也可以短周期的调度啊。还有一个就是增量的导出。我们可以替代部分卡不卡的场景，数据导出到在线的服务存储，那么增量导出对吧？区别于你每一次的全量导出，也就是说你看增量，增量实就咱们提炼这么几个场景来讲，几个关键词是什么呢？实时，实时这个是写分析，就是读呗，读出来再进一步的，呃，你要做成分析都可以，对吧，那不管读还是写都能做到进实时对吧，也就分钟题啊，这是咱们的一个场景，第二个场景呢，就是做增量的。
05:09
不管你是从数据进来还是读出来做处理分析啊，得到一个结果，或者是往其他地方去写啊，入也好出也好，都是分钟级的。啊，或者说增量的方式啊，也是分钟级，这就是咱们使用的一些场景啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（4/78）

6分12秒

01_Hudi课程简介

620

10分41秒

02_Hudi概述_简介

590

9分53秒

03_Hudi概述_发展历史&特性

500

5分31秒

04_Hudi概述_使用场景

520

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

560

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

510

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

640

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

460

6分10秒

09_Hudi编译_执行编译命令&jar包位置

530

14分1秒

10_Hudi基本概念_时间轴TimeLine

540

9分43秒

11_Hudi基本概念_文件布局_存储方式

460

10分38秒

12_Hudi基本概念_文件布局_文件管理

450

7分11秒

13_Hudi基本概念_索引_原理

450

5分44秒

14_Hudi基本概念_索引_索引选项

470

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

320

17分28秒

16_Hudi基本概念_索引_索引选择策略

420

5分35秒

17_Hudi基本概念_表类型_COW表

410

7分31秒

18_Hudi基本概念_表类型_MOR表

400

5分10秒

19_Hudi基本概念_表类型_两种表的区别

430

12分18秒

20_Hudi基本概念_查询类型

430

6分21秒

21_Hudi基本概念_不同表的查询类型

370

9分31秒

22_Hudi数据写_写操作&Upsert流程

460

4分44秒

23_Hudi数据写_Insert&Overwrite流程

590

3分48秒

24_Hudi数据写_Key生成策略&删除策略

390

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

520

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

390

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

360

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

400

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

400

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

540

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

490

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

380

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

400

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

420

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

520

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

530

12分14秒

66_Hudi集成Flink_Hudi Catalog

440

10分42秒

67_Hudi集成Flink_离线Compaction

450

7分40秒

68_Hudi集成Flink_离线Clustering

390

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

540

4分42秒

72_Hudi集成Hive_Flink同步Hive

420

3分48秒

73_Hudi集成Hive_Spark同步Hive

360

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

420

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

470

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

530

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

04_Hudi概述_使用场景

我来说两句

作者

相关推荐

暂无相关视频

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐