00:00
好,接下来呢,我们就来看一下卡夫卡呢定义,双击PPT就可以打开哈。打开之后,首先映入我们眼帘的呢,是京东网站双11的页面,那这个页面跟我们卡不卡有什么关系呢?哎,其实是这样的哈,大型的电商网站往往他都会对这个用户来到这个网站做了什么事进行一个记录,以便于后续呢大数据对他进行一个分析。那比如说这次双11,哎,圣手老师啊就来到这个网站进行了浏览,大量的海狗人事文相关产品,还对相关产品呢进行了点赞收藏和评论,那这个事儿呢,就被京东后台给记录下来。那京东后台怎么记录呢?首先呢,他会在这个网站上进行写前端的买点,然后将这个数据发送到对应的日志服务器当中。哎,那发送的形式呢,是采用接口这种方式,那后续我们再讲,呃,实施项目的时候呢,呃,会给大家去介绍哈。那数据进入到日志服务器,那他会把这条日志诶落盘到日志文件当中,以文件的形式进行存储。
01:09
那好,那最终我们是需要把这个数据啊,放到我们大数据平台上,对它进行一个分析的,那怎么把这个日志文件的数据导入到这个海集群呢。哎,其实以我们之前学过的这些框架当中,我们可以采用的是最擅长的就是flu。它可以时刻监控着这个文件里面数据的变化。每产生一条日志,我都能监控得到,然后呢,并把这个数据传到孩子集群,那这不就OK了吗?哎,其实很多企业也都这么做的。那现在啊嗨,多集群正常的一个读写速度呢,受于硬盘的一个影响,哎,普通的机硬盘也就100兆每秒左右,那如果像海哥这种固态硬盘的话,诶,能达到四五百兆每秒。那大多数情况下,企业都是用的是这个啊,100张门票。那么如果是普通的情况下,哎,像这个每天啊,日常的这种处理日志啊,差不多也就是每秒钟啊,100兆以内是完全能够扛得住的,于是这面过来的数据就能够按照时间顺序传到海德当中。
02:13
没有任何问题,但是呢,你像刚过完的双11或者618这种大型活动。那么它每秒钟产生的数据量就要非常非常庞大了,主要是因为宋老师买的黑人传太多了。比如说这次里面产生的数据呢,就是每秒钟200兆每秒。那么问你,嗨豆,它现在的处理速度是100兆每秒,那怎么办呢?你说以目前的情况,你是处理不了的。那这时候呢,诶,我们今天的课程主角卡不卡就诞生了。他把呢,首先它可以帮我们进行缓冲。因为它的处理数据量的这个能力啊,非常非常强大。对吧,哎,你像200兆每秒轻松可以搞定,那你就可以把海量的数据先灌到这个卡夫卡集群当中。
03:03
然后呢,由这个孩子国际群慢慢的从这里面按照自己的速度进行一个消费。比如说你灌进来的300兆秒。那没关系,那我这边呢,按照100兆每秒慢慢的给你进行消费,只不过这个时间可以拉长一点嘛,对吧。那么这个卡法的定义,首先呢,引出的是叫卡法的传统定义。那必然还有一个新的定义是吧,那么先看一下以前它怎么定义的啊,以前呢,这个卡法呢,它是一个叫分布式的。基于发布订阅模式的消息队列。比如说这里面存储数据的。那首先第一个概念叫分布式的,那这个词很好理解哈,之前我们学过hi度集群,学过这个主keep对吧,它们呢,都是分布式的框架。那以及我们后续学的啊,很多大数据框架都是分布式的。其实它就是由多台服务器来完成共同一个目标来解决一个事儿。
04:00
那这种就是分布式处理。那这里面比较难的是发布订阅怎么理解?看这个概念。说消息的发布啊,发布准啊,不会将消息直接发送给特定的订阅者,你想如果把这消息直接发给下游,那下游的读写速度如果不一致。那你这个推送的速度是不是就很难控制。那他怎么做的呢?他不这么推的,哎,它是啊,将发布的消息分为不同的类别,你看这里面分为对应的浏览,点赞、收藏。然后怎么办,然后由这个订阅者。自己,哎,接收感兴趣的消息。那其实这里面他接收的速度也是按照消费者自己的一个速度来进行一个处理。哎,这里所说的消费者和订阅者啊,是一回事啊。那行。啊,那是这样一个关系,也就是说我感兴趣哪些消息,我就拉取哪些消息,那如果你再来一些消费者。
05:02
每个消费者感兴趣的点不一样,那你就拉自己的呗。啊,那就更加灵活一些啊,好,这是卡巴传统的一个定义,那么卡巴当前的一个官网最新定义,它又是什么呢?他的野心很大,最新的定义呢,卡普卡是一个开源的分布式世界流平台啊,Event是这名platform。流平台。被数千家公司用于高性能的数据管道流分析、数据集成关键任务的应用。比如说他不仅仅希望卡夫卡是一个啊,类似于这种啊消息队列,他希望他能够承担在这个平台上进行数据的存储,数据的分析,数据的计算,数据的集成等等,都在这个卡法里面进行处理。其实呢,这也类似于我们后面学的这个,像呃,Spark呀,Flink,以及前面学的hi。比如说他的野心非常大,既能够承担海量数据的存储,也希望能够承担海量数据的一个计算的问题。
06:02
但是呢,呃,这个目前啊,绝大多数公司还是应用这个卡普卡呢来承担对应的这个,诶这个叫消息队列缓冲,这种作用会更多一些啊,它的计算呢,还有一段时间要轴,那这个呢,我们根据市场的变化,那随时关注这个框架的一个发展。好吧,哎,这也就是卡普卡的定义哈。
我来说两句