00:00
接下来我们要学习的课程是一个全新的大数据处理框架,就是flink。大家看,这就是flink的官网。其实说到大数据处理引擎或者大数据处理框架,大家可能最先想到的应该是Spark。我们对于Spark来说应该也相对更加熟悉一点啊,现在我们知道大部分的大数据分析项目里边都能见到的是Spark的身影。而对于flink呢,相对来说可能比较新,应该说flink是属于业界的一个后起之秀了,大家可能也多少有所耳闻啊。特别是最近的一两年里,在大。大数据领域,弗link可以说是异军突起。风生水起,发展的非踌非常迅速,而且受到了越来越多的关注。那flink具体是什么呢?我们说它其实也是一个大数据框架。
01:03
但是。Flink跟Spark又有所不同,它是一个大数据流式处理的开源框架。所以它的基本架构是基于data flow的。它是真正意义上的流处理框架。那我们知道Spark里边不是也有Spark streaming吗?也可以进行实时的流式计算吗?那flink又有什么特别之处呢?Flink相比smart streaming啊,最大的一个优势。其实说的直白一点,大家可以有一个这样的印象,就是link,就是快。就是延迟更小,实时性更好。Link能够提供毫秒级别的延迟水平,所以这就让flink呢在实时分析领域表现的非常强劲。很多别的框架做不到的事情,他都可以做到。那当然,我们知道,在学校里边,如果一门功课优秀,那不算厉害啊,门门功课都优秀,那才是真的牛。
02:08
Link。除了快之外,它还有别的优势吗?当然还有,其实flink最重要的一个特点就是同时做到了低延迟、高吞吐,而且还做到了对结果正确性的保证。啊,这就很厉害了,同时做到这些东西其实是很厉害的一件事情了。除了这些呢?Flink其实还有很多其他的一些优势,比如它提供了丰富的时间类型和窗口计算。他还提供了exactly one的状态一致性与以支持。另外,它还可以进行状态管理,还提供了复杂事件处理等等的一些支持。所以也正是因为flink有这么多的优点,现在很多公司呢,都很看好他。呃,都在把自己的实时项目在往这个flink上做迁移,特别是国内啊。
03:01
以阿里为代表这么一重大厂,其实都在全力的投入flink。不少公司都在为flink贡献源码,而且很多公司也在大量的招聘懂flink的专业人才。其实现在很多人认为flink是代表了未来的一个实时处理的发展方向的,所以它至少是能和Spark分庭抗礼的新一代大数据框架。所以对于这样的一个冉冉升起的业界明星,我们作为大数据的从业人员,或者说作为一个学习者,我们当然不能放过flink,所以一定要对他有所了解和掌握。那我们的这个课程就是为了让大家系统的学习flink而设置。所以我们接下来的学习就会把flink的基础理论和一个用flink做的电商数据分析的项目结合起来啊,既要讲理论,也要讲项目实战。
04:02
所以大家可以看到啊,主要内容是分成这样两大块儿的,就是一部分是理论,另外一部分是项目。第一部分呢,主要就是flink基础理论的讲解了啊,涉及到各种重要的概念原理啊,还有API的一些用法。我们大家可以看一下这个文档。过一下这个目录啊,就是首先我们会。对flink做一个整体的介绍。然后呢,写一个word count做一个快速上手。呃,接下来呢,就是部署运行,还有运行时的架构和任务调度的一些原理啊。接着我们要介绍的就是flink里边各类A的用法了,主要就是data STEM API,呃,大家看最重要的就是source transform,还有think这样的三大部分啊。呃,另外还有。窗口window相关的一些操作。再接下来呢,是弗link里边的时间语义,还有一个非常重要的概念,就是water mark。
05:06
另外还要介绍底层的API的一些使用方法。最后呢,给大家讲解的是弗link里边的状态编程,还有这个容错机制,那另外还有更加高级的API,就是table API CQ,还有CP相关的一些内容。所以大家看到这个整体来说,理论部分内容还是比较多的啊,我们会把这个理论部分做一个非常详细的讲解。除了理论之外,另外的第二大部分呢,我们会以这个电商作为业务应用的场景。用这个flink作为数据分析的框架,给大家讲一个电商用户行为分析的项目开发实战。那这里边主要包括的内容呢,是统计分析和风险控制两大块儿。
06:00
呃,具体来说又包括这样几个模块的实时热门商品统计,实时流量统计。然后下面还有这个市场营销、商业指标统计,这三大模块其实都属于我们的统计分析。那剩下的呢,就是风控相关的一些内容,比如说恶意登录监控,还有订单支付的实时监控。呃,所以大家会看到,在整个的这个课程里边,我们是理论和实践结合的非常紧密的,理论和实践并重。呃,在这里边我们希望。通过这样的一个学习呢。大家可以实现不同层级的这样的几个目标吧。首先通过这样一个学习,大家应该对flink这个大数据的流式处理框架有了充分的理解。扩充一下自己的知识边界啊,至少出去之后可以说,哎,我是懂flink的。
07:00
其次呢,通过这样一个项目实战,那大家可以对flink的应用场景,还有电商数据分析的这样一个业务领域有更加深刻的认识,熟悉之后可以说,哎,我用flink做过项目。最后呢?大家还可以通过理论和实践的应用,对整个大数据处理的架构,特别是流处理的架构有更加全面、更加清晰的理解。可以提升一下自己的视野和认识高度。那以后这。就为大家以后向做架构师的这个角色的发展啊转换打下一个基础。那接下来我们就准备正式的进入这一部分的学习。
我来说两句