00:00
我们先看一看link框架,它整体处理流程是什么样的,我们前面说了,它主要处理的是数据流,诶,那怎么样做这样的一个数据流的处理呢?我们可以看一下这张图啊,它的处理框架其实就是有很多的实时数据,比方说我们在网站当中有交易数据。有日志数据啊,或者说还有什么点击流,不停的在在这个网站上做点击,把它收集起来,还有物联网,呃,所谓的IOT啊,就很多传感器在不停的收集数据,收集起来之后要传输到我们的控制中心去做处理啊,去做响应这些数据。它都是在不停的收集,源源不断来的,所以我们把它叫做实时数据啊,那这种情况下,这个数据我们需要不停的读取,随时去拉取新的数据过来,另外呢,我也可以把它存储到一些数据库或者文件系统建值存储啊,KY6的这种存储里面去。不管是在哪里,接下来flink要做的是什么呢?诶,中间这里这就是flink flink要做的就是从外部把数据读取进来,实时的这些数据读取进来,然后做各种类型的处理,比如说可以做事件驱动型的应用,什么叫事件驱动呢?那就是来一个事件,我这边就给一个响应啊,这就所谓的事件驱动,那或者呢,也可以做其他的一些流水线处理啊,我就做完了一步操作,然后接下来呢,再做下一步操作,一步一步来,后面还可以做流分析,或者是批处理的分析,一批数据攒齐了之后,哎,我去分析一下它到底有什么特征呢?啊,提取一个什么特点,统计一个什么样的指标出来呢?这些都是可以去做的,这就是flink要做的大数据流处理。
01:47
而这个处理的过程是实时的,每来一个新的数据,理论上这里我们都可以得到对应的响应,因为它是事件驱动嘛,你来一个新的事件,我这里就可以去做一下。最终。我可以返回给应用程序做一个响应,也可以重新把它写入到事件日志里面去,另外呢,也可以把处理的结果写入到数据库、文件系统或者电池存储里面去,这就是flink处理的一个整体的框架,这就是流处理。
02:17
所以简单来看的话,就有点像一个管道一样,处理的一个管道水管一样啊,中间这就是一个管道,我们这边数据进这边处理完了之后数据就出来了,可以从不同的存储介质里边去读取数据,然后呢,也可以处理完成之后把它写入到各种各样的存储介质里面去,这就是flink的一个应用的过程。其实也就可以看得出来了,那弗林应该应用在什么场景下呢?它其实在各种各样的场景下都可以用,只要你的数据是实时的,比方说像我们这里有交易数据,那我们这个很多网站不就是要处理这些数据吗?啊,或者说对于这个日志数据我们要做分析,那我们做的这个实时分析不就可以基于它用flink来直接处理吗?啊另外呢,比方说像这个物联网啊,我们要做控制中心的这些分析和检测,同样也可以用flink来做,所以它的能够应用的行业和应用的场景是非常非常多的。
03:16
啊,随着弗林现在在这个快速的发展完善啊,大家可以看到现在在世界范围内很多公司,很多行业都可以看到弗link的身影,特别是做这个大数据的实时流处理的时候。啊,那现在这个弗林克的热度呢,在国内,在中国尤其的高,一方面是因为阿里的贡献啊,和这个巨头企业的龙头效应,带头效应,呃,阿里这既然挑头,那其他大家肯定要快步赶上了,另外一方面,弗link做这个大数据实时流处理,它到底有什么非常值得应用的地方呢?啊,其实主要就是因为它的响应速度快,实时嘛,来了之后马上就能处理,那我为什么非得用大数据处理框架呢?实时处理的话,我们平常一个后台程序不都是这样的吗。
04:08
这个问题就在于你的数据量大了之后,你一台服务器,甚至是一个集群可能也处理不了,同时处理不了那么大的数据,那这个时候怎么办呢?之前我们用这个哈杜Spark做这个数据分析,数据处理的时候,海量数据,数据收集齐了之后保存,然后去做这个分层,去做提取,去做这个查询,把它做一个离线分析,但如果说要非常快速的,非常实时的得到响应的话。可能就不是那些框架所擅长的了啊,当然SPA streaming可以做到这一点,后面我们会提到它跟flink还是有所区别,有所差距啊,所以当前的flink就在这种场景下应用特别的好。那所以在在中国为什么会有更高的热度呢?在其他的国家可能没有我们中国这么多人呢?啊,你想想为什么阿里要挑头做这件事儿,就是因为我们中国人多,阿里的双11各种各样的购物节,同时用户来的这些点击的这个数据和交易的数据下的这个订单量,可能是很多其他的国家有可能一个月甚至一年都没有的订单数量,我们这里遇到的场景就是在国外很多企业可能永远遇不到的场景。
05:21
所以这也倒逼着国内的很多公司去做这个技术创新,去用更新更好的技术来解决实际问题,那我们来看一下在企业当中有哪些应用呢?啊,这个图大家可以看的非常的明确,这个图是从flink官网上直接贴过来的,有国内外的很多知名的企业,最典型的当然就是阿里啊,当然还有亚马逊啊,涉及的这个行业也是多种多样,比方说像电商啊,或者像快手做这个平台,唯品会,小米什么的,腾讯都是有应用的。所以可以说各行各业,只要你想更快更实时的处理海量的流数据,那就应该用link。
我来说两句