文章/答案/技术大牛

发布

首页视频02_Hudi概述_简介

02_Hudi概述_简介

2022-12-022022-12-02 16:02:21播放63

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/02_Hudi概述_简介.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
接下来我们先来了解一下什么是hodi，那whodi呢，可以简单理解为这么几个单词啊，Hard杜ER相关的upsurs，就是支持插入及更新，并且呢支持一个删除，还有增量的一个处理。那么忽底其实就是咱们经常讲的一个什么数据的一个框架，那么官方更愿意称它为一个平台，因为啊它提供了一个平台化的能力，还有很多的功能，并且呢，它是支持什么呢？流逝的啊，这一点就特别关键了，那么继继续看啊，阿帕奇屋地将核心仓库还有数据库的功能直接引入了数据库，也就是说大家使用起来还是应该是比较熟悉的，那关键是后面这里你看它提供了一个表表，怎么理解呢？那么相信大家啊，来了解忽Di的一定都了解过hi这么一个框架，咱们经常用hi来做一个离线数仓，对吧？
01:00
那其实咱们大数据比如说是基于哈的，那我们的分布式的存储都是基于HDFS，那这个时候对于这个上面的数据怎么像一张表一样来管理跟使用它呢？那就借助have这个框架，它给我们提供了表的管理，像表的一些STEM啊，那我们就可以通过一些have circle来对数据进行一个分析。那蝴底同样呢，他提供了他特有的一些表的格式啊，这一点也是一个基本功能，那后面呢，大家注意看有一个什么事物，这也可以说是解决的一个have的一个痛点，那么hi府大家知道早期版本并没有支持呃，事物这种acid的这种语义，当然呃有一个版本它是出了支持的，但是呢，它底层的实现还是insert overight还是这么来实现，那么大家可想而知，这种方式来实现的话，整个覆盖的话，那它的效率啊应该是高不了了，所以现在呢，使用它这个特性的人也很少，但是蝴体不一样，他提供的事物是比较轻亮的啊，不会这么重的操作啊，这也是它非常重要的一个特点啊，这也是大家需要去重点记住另外一个呢，就是高效的upset，那么大家在平时啊做。
02:27
那个离线数仓的时候啊，也就是说咱们常规用了一个have表，应该有一个巨大的痛点就是诶，比如说我只需要更新某几行数据。那或者说我只要更新某一个字段的值，那么其实对于have来讲，我们能做的也就是inser override，你要么整个分区覆盖，要么整张表覆盖，那这种呢，同样的很低下，但数据库不一样，它可以找到。呃，你需要的这一行将它更新掉就可以了，这也是依赖于忽迪架构上的一些设计啊，这也是它最最重要的特性之一啊。
03:09
另外呢啊，对于数据的删除，那同样也可以实现，另外呢。他也提供了一些索引的能力，那索引大家都了解对吧，那索引呢，通常是提高咱们的一个效率。另外呢，留摄取服务。也就是说咱们可以从像一些分布式文件系统，还有消息队列，卡夫卡这些地方流逝的，将数据采集进忽底这么一个数据库里边，那它提供了一个像Delta streamer啊，这么一个工具是依赖于Spark的，当然后续的版本现在也支持使用flink来做这个事儿啊，都可以。并且有数据的一个剧簇，还有压缩，那呃，怎么来理解这个压缩呢？其实咱们用它原生的说法大家就懂了，Compassion这个东西，嗯，在h base，还有一些oip数据库里面。
04:11
应该都很常见，其实就是什么呢？呃，可能是我不断的去写入啊，大家简单理解，我不断的在写入的话，那可能每次写入你多次写入的话，可能会生成多个一个文件系统上的文件，这个时候呢，它可以进行什么啊，类似于合并这么一个操作吧，啊，有的喜欢翻译为合并，有的翻译为压缩，但都是这个单词啊，大家应该都熟啊，像click house base都有这个compassion的一个操作，并且呢，支持一个并发的一个操作，那大家从这边看下来，其实它我们列出了几个重要特点，都是解决传统数据仓库，尤其是像典型的have这种一些痛点，那忽底就是专门来解决这些事儿啊，简单来讲是这样，另外呢，呃，他保持的数据的开源文件格式，也就是说他不会再使用自己特有的一种文件格式。这样的话，如果保持。
05:12
开源格式的话，那咱们跟其他地方的兼容性就会特别好了，那它主要用到了是这么两种格式啊，一个是PA这种列式存储的，行式存储呢，它是会使用一个阿芙罗，诶啊，那这个两种格式大家应该读特别常见啊，那这样的话，回头你要需要用其他框架来跟他做一个集成啊，或者去读取它的数据啊，都是特别的方便，好那么了解到这了，呃，那忽Di呢，还有一个特性啊，它可以做流式的一个处理，那同样它也可以做什么批处理，所以忽底其实我们也可以说它可以支持牛批一体，既支持牛，也支持批，另外呢，大家注意它这个P是什么增量的，而且是高效的，像比如说have，咱们做离线数仓的时候，经常是什么做T加一的分析什么是T。
06:12
加一啊，也就是昨天的数据，我可能需要一整天的数据都，嗯，累计完了，我再统一采集过来，对吧，过了晚上12点我采集过来，再统一对一整天的数据进行一个分析，那地这边批处理的时候，他可以增量，比如说我每五分钟，我可以将五分钟内新增的数据先做一个处理，做一个输出，那下一个五分钟再接着处理五分钟内的一个增量数据啊，也允许这么来用，那同样你也可以用一些流的方式来处理啊。可以说他是啊，你想怎么用都可以。另外呢，还有一些细节啊，铺地呢，可以在任何的云存储平台上使用啊，也就是说跟各大的云平台啊，它都是做了一个兼容的。
07:04
那么跟忽底我们通常结合一起使用的，有大家特别常见的一些分析引擎啊，像一个什么呢？Spark。应该特别熟，不管是离线还是实时都有很多企业会去使用，那么还有最近比较火的一个flink，还有呢，Pstal，还有have等等都可以去集成使用啊，特别的方便，那我们也可以简单搂眼这个架构图。也不算架构啊，这是官网放的一张图啊，那么大家可以看到，呃，属于数据源，就我们的数据来源可能有各种各样的，对吧？啊，可能有数据库的，像什么MYSQL啊，还有其他一些，还有我们的APP产生的，还有微服务产生的一些日志啊等等这些你的买点信息也可以，那这些呢，通过可我们可以统一采集到一个什么呢？事件流，什么叫事件流呢？那比如说我们最常用的就是一个什么卡不卡这种消息队列，还有什么rocket MQ这些都可以啊，也就是说消息队列这么一种框架，那么我们可数据到了呃，消息队列之后，我们可以把它通过采集入湖做一个etr，那这边可选的工具有特别多啊，可以用一些CDC的工具，可以用忽底提供的这个Delta streamer。
08:24
都可以啊，甚至呢，我们做的一些Spark跟flink都可以将它呃数据入湖，那么到了数据湖之后呢，这些数据进来之后啊。它会形成一个什么呢？一特定的护理表的一些管理之后呢，我们可以基于这个再做一个增量的etr，还是结合咱们熟悉的一些引擎，像Spark flink这些啊，进一步的处理，这是进入到护理之后的操作，那么我们的查询呢？要对互地表进行查询，也支持很多的东西，大家可以上面有一坨对吧？啊，像常见的什么train pstal啊，这些都可以，Have impala啊，还有阿里云的，亚马逊云的啊，一些东西，Spark，那其实flink也可以啊，那包括我们构建一个pipeline的话，Spark flink啊都特别熟，这上面呢，就是它的计算引擎，还有一些查询引擎。
09:25
那么再往底层去看呢，就是它数据存在哪里啊啊，那么大家可以看到一些分布式的存储文件系统都可以，像亚马逊的S3，我们哈杜的HDFS，还有后面的一些啊都可以。那接下来我们往下面瞅一瞅，目前呢，呃，会在使用护底的一些企业，这也是官方放出来了，当然呃。不是所有的啊，咱们只是列出了一些像比较出名的，像由于什么呢？字节跳动对吧，沃尔玛，EBay，亚马逊推特。
10:08
苹果啊等等等等啊，还有百度这些什么华为啊啊，蚂蚁就阿里系的啊，阿里云啊等等这些通通都在使用一个忽Di，并且咱们忽Di现在呢，可以说是在数据库有几个框架嘛，一个是忽底，还有一些像冰山呢，还有德尔塔lake克啊这些来讲，那忽地相对来讲它的社区会更活跃一点，并且呢，它的迭代速度也是特别快的啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（2/78）

6分12秒

01_Hudi课程简介

690

10分41秒

02_Hudi概述_简介

630

9分53秒

03_Hudi概述_发展历史&特性

530

5分31秒

04_Hudi概述_使用场景

570

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

630

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

560

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

680

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

480

6分10秒

09_Hudi编译_执行编译命令&jar包位置

550

14分1秒

10_Hudi基本概念_时间轴TimeLine

550

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

460

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

440

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

470

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

610

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

490

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

400

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

620

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

460

7分40秒

68_Hudi集成Flink_离线Clustering

410

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

470

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

02_Hudi概述_简介

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐