00:00
面我们就正式开始弗link这部分内容的学习,首先呢,我们给大家做的是一个flink流处里的简介啊,那这一部分里边我们要知道flink是什么,然后我们要了解一下为什么要用flink啊,那后边呢,我们会站在一个比较高层级的视角啊,就是所谓的架构师的视角去看,看待这个流处理的发展和演变的过程。最后给大家总结一下flink的主要特点。并且。重点要对比一下,和Spark streaming做一个特点的对比啊,这就是这节课我们的一些主要内容,那首先呢,就是弗link是什么啊,那关于这个弗link的起源呢,它其实是起源于一个叫做stress fair的研究项目啊,这个项目是在很早啊,其实在2010年的时候,由柏林德国柏林的几所大学,哎,他发起的这样的一个研究项目,就是做这个大数据病情处理啊,流式计算这样的一个研究项目,那么这个项目呢,在14年4月的时候。
01:05
这个fair这个项目啊,它的原代码就被捐赠给了阿帕奇基金会,所以后面大家接触到的时候就会发现啊,弗link其实是阿帕奇下面的一个项目,对吧,这是在一四年的时候,弗林就成为了阿帕奇基金会的孵化项,而且大家看这个时间线啊,很快在几个月之后,在一五年的一月。弗link就成为了阿帕奇基金会的顶级项目啊,所以说呃,这个弗link其实发展的这个过程啊,它本身是比较早的一个项目。那一开始呢,可能我们会发现它是处在这个研究的阶段,所以本身应用并不是特别的广泛,后来这个应用的发展就会越来越快啊,到现在为止就可以说是如火如荼啊,应用非常非常广泛啊,那这个弗link到底是什么呢?其实在这个德语里边啊,因为我们说它最早期不是德国柏林的一些大学的研究项目嘛,所以本身弗link这个词它是一个德语词汇,这个词在德语里边呢,表示的意思是快速灵巧的意思。
02:15
啊,所以呃,大家可能也见过flink的这个图标啊,这个logo,它这个logo呢,就用了一只松鼠做彩色的松鼠啊,用这个图案作为了项目的logo啊,那一方面我们就会发现这是项目的一个定位啊,因为弗link本身代表快速灵巧嘛,那松鼠小松鼠嘛,本来给我们的印象就是有这个快速灵巧的特点,另外呢,还有一个比较有趣的这个,呃,小小的这个知识点啊,就是因为本身柏林那个地方,它当地就有松鼠啊,那它的这个松鼠呢,就是红棕色的,就类似于这样的一个颜色,而刚好这个颜色呢,又跟阿帕奇基金会的这个logo颜色一致,大家可能也见过阿帕奇基金会这个羽毛渐变色对吧,红棕色的这样一个漂亮的渐变色啊,嗯,所以说flink的logo它就定就就设计成了一个红棕色的小松鼠,而且有一个渐变。
03:15
蓝色漂亮的大尾巴啊,这就是关于这个弗link基本的一个定位啊,它的logo是一个阿帕奇风格的松鼠,小松鼠。那所以我我们从本身它logo的设计和这个项目的命名上,首先就有一个直观的印象啊,弗Li克他要的是什么呢?快速灵巧对吧?啊,所以这是大家首先应该有的一个概念,就弗link他希望有这样的特点啊,那这是直观的一个认识,那弗Li克到底是什么呢?我们来看一看这句话,那这句话其实是从哪里来的,这是在弗Li克官网里边摘下来的一句话,我们可以给大家看一眼这个弗link官网啊,这就是弗Li官网,大家看这个阿帕奇基金会下的顶级项目,它的域名就是它的当前的这个域名,访问域名就是弗link点阿帕奇点。org。
04:10
然后在这里边点进来之后啊,这是这个官网有一个这个架构图,然后我们可以直接看一眼当前的这个。呃,我我我们可以直接看一下这个what is阿帕奇link。看看这个官网对弗林可的介绍啊,那大家看这个架构里边第一句话就是我们这里摘到这里边的这句话,大家放大看一眼啊,他说的是什么呢?说的是阿帕奇Li ISA framework,我这里边我专门把这个关键字做了一个斜体的表示啊,And distributed processing。For states for computs over unbounded and bondunded date stream啊,所以这句话看起来很复杂,对吧?这里边关键词还很多,我们如果翻译过来的话,它主要说是弗林克是什么?它是一个框架啊,那大家知道这是什么框架,大数据计算框架吗?对吧?和和一个处理引擎,什么处理引擎呢?分布式的处理引擎啊,那我们知道现在做大数据处理整体的结构是什么?就是分布式架构,对吧?就是很多的机器,我们构成构建成一个分布式的集群,然后协调起来进行分布式的并行计算,这就是当前大数据的整体架构,弗林可也不例外。
05:34
啊,那另外后面还有一个for for就表示它应用的场景了,它主要应用在什么场景呢?呃,这里边提出的概念是说它用于对于无界和有界数据流,哎,这里边就是bounded的on unbounded data streams,针对这样的有界无界的数据流进行。State计算,有状态的计算。
06:00
啊,所以这里面涉及到的几个概念,就是首先我们针对的这个数据是数据流。啊,那大家想到数据流是什么水流,哎,那就是连续不断对吧,源源不断,哎这样的一个一种数据场景。这叫做数据流,另外呢,它的特色是进行有状态的计算。我们猜测里面只是这样泛泛的说了一下,呃,提到的一些概念啊,那大家可能还是有有很多疑惑,那这里边提到的这些东西到底是什么呢?哎,不要着急,后面我们一一给大家展开,把这些特点啊,让大家做一个深入的了解,那接下来我们首先先看一下,说一下这个flink当前的热度啊,通过这张图我们其实可以非常直观的看到当前啊,在这个全球其实很多国家和地区弗林克都已经有应用了。啊,那主要是在哪里边最热呢?非常直观啊,在中国最热对吧?啊就是如果说这个在国内中国的热度是100的话,其他地区啊,主要就是这个欧美,还有这个澳洲,澳大利亚,印度俄罗斯啊呃,这个金砖四国巴西啊这些国家,那那其实如果中国热度是100的话,其他国家最高也只有个位数。
07:18
那为什么会出现这样一个场景呢?啊,那其实这主要分两两个方面啊,大家可能知道,主要就是因为中国有这个挑头的企业呀,对吧,以这个阿里为首的一众中国企业在弗link方面的这个发力是非常非常大的啊,现在就是引领了弗link的研研发的这发展的潮流啊,那为什么中国的企业对弗link就这么感兴趣呢?一方面那应该说我们中国的技术公司啊,我们的技术非常强,中国人能力很很强,我们本身对于当前大数据发展的技术前沿就有这个热情,对吧,本身就有这样的一个开发的,呃,就是努力钻研的这样的一个需求,那另外一方面其实更多的原因。
08:05
在于。中国本身的国企,我们中国人多啊,啊,大家可以想象到,你对于这个其他国家而言,开发一个应用,开发一个这个需求,那可能你涉及到的这个用户数据,数据量啊,是非常非常少的,呃,就是当然这个不是说非常非常少啊,就是跟中国的这种数据量体量比起来的话,它那个就少的可怜了,我们甚至可能认为它那个都不需要上大数据,对吧?啊,所以在其他国家而言,可能之前很多需求你直接用这个还都不用Spark就可以解决了,或者说你如果说要有这个实时的需求的话,我用Spark streaming啊啊这些框架都已经可以很好的处理。但是在中国有时候就不行,因为我们的量级太大太大了啊,您可以想象一下双11的时候对吧,购物节啊做这个呃。很多的用户在同一时段都涌入当前的这个电商平台,然后去下单抢单啊购买,对吧,有各种各样的行为,你如果这个时候还想要去做一个实时的分析评判的话,那你说用传统这些架构能够搞得定吗?
09:16
哎,那确实就搞不定了,所以在某种情况下,我们中国的公司能够走在整个国际的技术的前沿啊,特别是弗link这个领域的前沿,那某种程度也属于是我们当前的这种应用场景倒逼出来的,对吧?啊,所以这也是一种好事啊,一方面是压力,另外一方面也是动力。啊,那呃,关于这个在国内目前国内企业的应用,就是我们说的啊,以阿里为首的一众大厂,那其实都有应用,当前可以说呃,弗林格从一开始啊,就有一个非愁跃的社区,而且呢,这个还在不停的增长,现在以阿里为首的国内企业对于当前社区的贡献也是越来越多啊,他现在弗林可以说已经是各行各业都有广泛的应用,大家可以看到啊,这里边就是啊,你像这个阿里,还有这个京东啊,主营业务是电商对吧?啊,像腾讯做这个实时通讯啊,你像这个华为跟硬件打交道,网易做这个门户网站啊,做其他的一些平台,还包括这个打车软件啊,外卖软件啊,还有我们这个视频软件啊,这些各行各业不同的领域都可以用到flink。
10:32
啊,所以其实它能应用的场景是非常非常广泛的。那这也是为什么我们要认真的学习它,把它作为大数据学习过程当中的非常重要,也是最后一块拼图的原因。
我来说两句