文章/答案/技术大牛

发布

首页视频01_Hudi课程简介

01_Hudi课程简介

2022-12-022022-12-02 16:02:21播放69

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之数据湖Hudi/视频/01_Hudi课程简介.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
大家好，我是来自上硅谷的老师，江湖人称陈教授，这次给大家带来的由我们上硅谷与阿帕奇库里官方合作推出的视频教程。采用了湖底的最新版本进行讲解。那互Di是什么呢？忽地最早啊，是由美国的优步公司开发并且开源的数据库解决方案，是下一代的数仓解决方案。它能够给我们提供高效的UPS和进实时的更新，那基于此呢，我们可以构建一个增量的处理管道，实现一个T加零的延迟。它有这么几个核心的特性，第一个呢，就是它的开放性。不仅呢，上游支持多种数据源格式，包括了传统数据库当中的圈子log、变更日志，还有消息队列的log等等，在sources端都有一个非常丰富的支持。下游的查询端也支持多种引擎，像主流的计算框架Spark flink，还有一些查询的像pstal in chi。
01:08
等等。第二个是提供了一个丰富的事物支持。在文件存储布局上可以做到一个更新，它的更新效率就更高了，不用每次都去overright整张表，或者说对整个分区去做一个更新。能够精确到文件力度的局部更新，提升存储还有计算的效率。第三，一个是支持基于acid语义的增量处理。不仅支持传统的batch调度，也支持流式的消费和处理。那么它的增量ETL处理的计算上会更加的高效，在数据的新鲜度上也有一个数量级的提升，从天级别提升到了分钟级别。
02:00
在护底当中啊，它会尽量的优化文件布局，将小文件管理这种数据治理的方案做到框架的内部，实现了一个智能化的调度，这也是护底区别于其他的像德尔塔、lake ice back的一个核心特点，解决我们传统have数仓的一个痛点。借助呼地啊，我们能够做到近实时的摄取采集数据，近实时的分析数据。构建一个增量的处理管道，并且呢将结果增量的导出。本次课程最大的特点呢，第一个就是由我们上硅谷与阿帕奇护理官方联合推出了，那么可以说是最为权威的一个教程，第二个呢，我们采用的是最新的护体版本0.12.0。那么最最重要的还是我们上硅谷的风格啊，提供一个保姆级的教程，手把手解决各种疑难杂症。
03:01
课程的内容和资料可以说是又全又细，那我们可以一起来看一下我们的课件。那么大家可以看到我们的课件啊啊，基本上达到了100多页，接近3万个字。基本上大家只要复制粘贴即可顺利的运行，我们可以来看一下课程的一个大纲。啊，展开之后啊，大家可以看到本课程啊，细致的讲解了护底的内部架构，还有核心概念。包括它最基本的编译安装，这中间也会讲解如何去解决一些跟其他框架的兼容问题，如何去修改源码，如何去编译，如何去使用和安装。那么大家照着做呢，就能够非常顺利的运用起来。在概念的讲解中啊，除了最基本的一些核心概念之外，那还包含了它的一些主要的原理，都进行了详细的介绍。
04:01
那在对各种计算框架的对接过程当中，啊，啊，我们也会去讲解如何去一步一步的跟他集成起来，那包含了它的各种使用方式，都做了最为全面细致的演示。那基本上涵盖了你的所有操作姿势。除此之外啊，还会介绍一些护理特有的工具，还有它特有的特性的使用，像并发控制，还有它的一些常规调优方式和手段。那在忽Di在Di跟flink的集成当中啊，除了最基本使用之外，也会对核心的参数配置进行讲解。也会去分析这些参数对于我们生产实际使用当中的一些作用还有影响。那包括了一些生产商可能会用到的功能啊，像对不同的读取方式，不同的写入方式，还有它的一个模式。那同样呢，也包含了对于have的一个集成过程。
05:02
那包括呢？怎么将数据表同步到have，怎么去跟have做一个集成，怎么利用have的catalog持久化我们的一些flink表。同时也介绍了。如何去利用自带的系统函数来简化我们的开发过程？课程的全套资料呢，都能够提供给大家。比如我们最详细的课件。还有呢？课程当中涉及到的像源码编译需要的东西，还有对接当中需要的一些包啊，全部都提供。还有呢，就是上课我们演示了一些代码。当然了，还最重要的就是我们全面细致讲解的视频。那么如果大家想要获取本课程的资料，还是来一句第一个呢？可以关注我们上硅谷教育公众号，回复大数据即可。
06:01
我们的老学员可以在鼓励学院免费观看，当然呢，还是我们的老特色，在B站所有人都可以免费观看。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之数据湖Hudi

（1/78）

6分12秒

01_Hudi课程简介

690

10分41秒

02_Hudi概述_简介

630

9分53秒

03_Hudi概述_发展历史&特性

530

5分31秒

04_Hudi概述_使用场景

570

8分58秒

05_Hudi编译_版本兼容&Maven安装配置

630

7分2秒

06_Hudi编译_解决与hadoop3.x的兼容问题

560

5分33秒

07_Hudi编译_手动安装需要的kafka依赖

680

7分44秒

08_Hudi编译_解决Spark写入Hudi的兼容性问题

480

6分10秒

09_Hudi编译_执行编译命令&jar包位置

550

14分1秒

10_Hudi基本概念_时间轴TimeLine

550

9分43秒

11_Hudi基本概念_文件布局_存储方式

470

10分38秒

12_Hudi基本概念_文件布局_文件管理

480

7分11秒

13_Hudi基本概念_索引_原理

460

5分44秒

14_Hudi基本概念_索引_索引选项

480

3分52秒

15_Hudi基本概念_索引_全局索引与非全局索引

330

17分28秒

16_Hudi基本概念_索引_索引选择策略

430

5分35秒

17_Hudi基本概念_表类型_COW表

430

7分31秒

18_Hudi基本概念_表类型_MOR表

410

5分10秒

19_Hudi基本概念_表类型_两种表的区别

440

12分18秒

20_Hudi基本概念_查询类型

440

6分21秒

21_Hudi基本概念_不同表的查询类型

380

9分31秒

22_Hudi数据写_写操作&Upsert流程

470

4分44秒

23_Hudi数据写_Insert&Overwrite流程

630

3分48秒

24_Hudi数据写_Key生成策略&删除策略

400

3分21秒

25_Hudi数据读与Compaction

390

5分30秒

26_Hudi集成Spark_环境准备&启动Shell

560

8分6秒

27_Hudi集成Spark_Shell方式_准备及插入数据

410

10分45秒

28_Hudi集成Spark_Shell方式_查询数据&文件命名源码

370

9分17秒

29_Hudi集成Spark_Shell方式_更新数据&时间旅行查询

410

13分17秒

30_Hudi集成Spark_Shell方式_增量查询&指定时间点查询

410

8分16秒

31_Hudi集成Spark_Shell方式_删除数据&覆盖数据

390

17分29秒

32_Hudi集成Spark_SQL方式_环境准备&创建表

440

13分50秒

33_Hudi集成Spark_SQL方式_插入&查询

510

4分48秒

34_Hudi集成Spark_SQL方式_更新数据_Update

450

17分46秒

35_Hudi集成Spark_SQL方式_更新数据_MergeInto

420

7分32秒

36_Hudi集成Spark_SQL方式_删除&覆盖数据

500

12分42秒

37_Hudi集成Spark_SQL方式_修改表结构、分区&存储过程

610

14分9秒

38_Hudi集成Spark_IDEA编码方式

480

17分2秒

39_Hudi集成Spark_DeltaStreamer_工具介绍

330

16分5秒

40_Hudi集成Spark_DeltaStreamer_准备Kafka数据&配置文件

440

5分41秒

41_Hudi集成Spark_DeltaStreamer_执行导入&查询结果

380

11分37秒

42_Hudi集成Spark_并发控制说明

390

4分5秒

43_Hudi集成Spark_并发控制_DF写入演示

340

3分43秒

44_Hudi集成Spark_并发控制_DeltaStreamer写入演示

340

12分10秒

45_Hudi集成Spark_官方调优指南

430

6分36秒

46_Hudi集成Flink_环境准备

430

10分16秒

47_Hudi集成Flink_sql-client_local集群方式

420

5分21秒

48_Hudi集成Flink_sql-client_yarn-session集群方式

370

14分51秒

49_Hudi集成Flink_sql-client_插入&查询&更新

400

5分53秒

50_Hudi集成Flink_sql-client_流式插入

470

9分51秒

51_Hudi集成Flink_IDEA编码方式_手动安装依赖

530

15分34秒

52_Hudi集成Flink_IDEA编码方式_提交运行

360

3分53秒

53_Hudi集成Flink_类型映射

460

4分39秒

54_Hudi集成Flink_核心参数_去重参数

410

13分27秒

55_Hudi集成Flink_核心参数_并发参数&Hints用法

460

5分7秒

56_Hudi集成Flink_核心参数_Compation参数

490

13分29秒

57_Hudi集成Flink_核心参数_Compation演示&hadoop依赖冲突解决

380

9分44秒

58_Hudi集成Flink_核心参数_文件大小&Hadoop参数

390

9分27秒

59_Hudi集成Flink_核心参数_内存参数&优化建议

370

13分54秒

60_Hudi集成Flink_读取方式_流读&增量读&限流

400

19分45秒

61_Hudi集成Flink_写入方式_CDC入湖

440

11分47秒

62_Hudi集成Flink_写入方式_离线批量导入

490

5分28秒

63_Hudi集成Flink_写入方式_全量接增量

470

12分41秒

64_Hudi集成Flink_Changelog模式

620

11分42秒

65_Hudi集成Flink_Clustering&Bucket索引

540

12分14秒

66_Hudi集成Flink_Hudi Catalog

470

10分42秒

67_Hudi集成Flink_离线Compaction

460

7分40秒

68_Hudi集成Flink_离线Clustering

410

4分7秒

69_Hudi集成Flink_常见基础问题

350

9分57秒

70_Hudi集成Flink_核心原理简要回顾

460

5分48秒

71_Hudi集成Hive_集成步骤

620

4分42秒

72_Hudi集成Hive_Flink同步Hive

470

3分48秒

73_Hudi集成Hive_Spark同步Hive

370

11分0秒

74_Hudi集成Hive_使用HiveCatalog&使用Hive自带函数

430

5分43秒

75_Hudi集成Hive_Hive外表创建&查询方式

470

3分37秒

76_Hudi集成Hive_hive sync tool使用说明

440

10分3秒

77_Hudi集成Hive_解决依赖问题&JDBC方式同步

550

3分38秒

78_Hudi集成Hive_hive同步工具_HMS方式

350

01_Hudi课程简介

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐