00:00
大家好,我是来自上硅谷的老师,江湖人称陈教授,这次给大家带来的由我们上硅谷与阿帕奇库里官方合作推出的视频教程。采用了湖底的最新版本进行讲解。那互Di是什么呢?忽地最早啊,是由美国的优步公司开发并且开源的数据库解决方案,是下一代的数仓解决方案。它能够给我们提供高效的UPS和进实时的更新,那基于此呢,我们可以构建一个增量的处理管道,实现一个T加零的延迟。它有这么几个核心的特性,第一个呢,就是它的开放性。不仅呢,上游支持多种数据源格式,包括了传统数据库当中的圈子log、变更日志,还有消息队列的log等等,在sources端都有一个非常丰富的支持。下游的查询端也支持多种引擎,像主流的计算框架Spark flink,还有一些查询的像pstal in chi。
01:08
等等。第二个是提供了一个丰富的事物支持。在文件存储布局上可以做到一个更新,它的更新效率就更高了,不用每次都去overright整张表,或者说对整个分区去做一个更新。能够精确到文件力度的局部更新,提升存储还有计算的效率。第三,一个是支持基于acid语义的增量处理。不仅支持传统的batch调度,也支持流式的消费和处理。那么它的增量ETL处理的计算上会更加的高效,在数据的新鲜度上也有一个数量级的提升,从天级别提升到了分钟级别。
02:00
在护底当中啊,它会尽量的优化文件布局,将小文件管理这种数据治理的方案做到框架的内部,实现了一个智能化的调度,这也是护底区别于其他的像德尔塔、lake ice back的一个核心特点,解决我们传统have数仓的一个痛点。借助呼地啊,我们能够做到近实时的摄取采集数据,近实时的分析数据。构建一个增量的处理管道,并且呢将结果增量的导出。本次课程最大的特点呢,第一个就是由我们上硅谷与阿帕奇护理官方联合推出了,那么可以说是最为权威的一个教程,第二个呢,我们采用的是最新的护体版本0.12.0。那么最最重要的还是我们上硅谷的风格啊,提供一个保姆级的教程,手把手解决各种疑难杂症。
03:01
课程的内容和资料可以说是又全又细,那我们可以一起来看一下我们的课件。那么大家可以看到我们的课件啊啊,基本上达到了100多页,接近3万个字。基本上大家只要复制粘贴即可顺利的运行,我们可以来看一下课程的一个大纲。啊,展开之后啊,大家可以看到本课程啊,细致的讲解了护底的内部架构,还有核心概念。包括它最基本的编译安装,这中间也会讲解如何去解决一些跟其他框架的兼容问题,如何去修改源码,如何去编译,如何去使用和安装。那么大家照着做呢,就能够非常顺利的运用起来。在概念的讲解中啊,除了最基本的一些核心概念之外,那还包含了它的一些主要的原理,都进行了详细的介绍。
04:01
那在对各种计算框架的对接过程当中,啊,啊,我们也会去讲解如何去一步一步的跟他集成起来,那包含了它的各种使用方式,都做了最为全面细致的演示。那基本上涵盖了你的所有操作姿势。除此之外啊,还会介绍一些护理特有的工具,还有它特有的特性的使用,像并发控制,还有它的一些常规调优方式和手段。那在忽Di在Di跟flink的集成当中啊,除了最基本使用之外,也会对核心的参数配置进行讲解。也会去分析这些参数对于我们生产实际使用当中的一些作用还有影响。那包括了一些生产商可能会用到的功能啊,像对不同的读取方式,不同的写入方式,还有它的一个模式。那同样呢,也包含了对于have的一个集成过程。
05:02
那包括呢?怎么将数据表同步到have,怎么去跟have做一个集成,怎么利用have的catalog持久化我们的一些flink表。同时也介绍了。如何去利用自带的系统函数来简化我们的开发过程?课程的全套资料呢,都能够提供给大家。比如我们最详细的课件。还有呢?课程当中涉及到的像源码编译需要的东西,还有对接当中需要的一些包啊,全部都提供。还有呢,就是上课我们演示了一些代码。当然了,还最重要的就是我们全面细致讲解的视频。那么如果大家想要获取本课程的资料,还是来一句第一个呢?可以关注我们上硅谷教育公众号,回复大数据即可。
06:01
我们的老学员可以在鼓励学院免费观看,当然呢,还是我们的老特色,在B站所有人都可以免费观看。
我来说两句