00:00
好,接下来呢,我们讲第一章啊,第一章呢是概述啊,概述这里面呢,呃,像这个定义这一块啊,属于了解内容这个组成这一块是。点啊,包括下面这个内部原理啊,这也是重点拓普这一块啊,属于这个选择性了解,因为后面我们在做案例的时候,还会再来说这个科普情况啊,所以说这个一三属于了解,二是呢属于重点掌握啊。好,我们来看一下的定义。呢,是这个公司提供的一个高可用的,高可靠的。分布式的海量日志。采集聚合传输系统。呢,基于这个流式框架,灵活简单。那这么长一段话啊,我一个一个来拆解啊,第一个公司熟不熟。是不是这个发行版本当中,第一个是阿帕奇,第二个是不是就是啊,第三个是。
01:02
那这个10.7版呢,新债目前来说啊,在企业中大量使用。呃,在后面的课程当中,你班我会专门加一天课做什么呢?CDH版拍头管。啊,包括卡普卡整个韩集群的搭建。就是课程已经研发完了啊,资料已经整完了。呃,如果说你正常的搭一个派多肌群啊,还有这个汉尔肌群,弗鲁姆肌群,卡法肌群,你可能需要一天的时间,或者最快的话,像个巢的手术。这半条对吧啊。但是呢,如果你换成世界几百。一个小时之内轻松搞定啊。而且所有东西。只需要你去恭谢。啊可配置,包括你像你这个呃,高可用对吧,高考你费了半年,你写了一个代码啊,那个来勾一下啊,选择高可用自动启动。
02:01
而且呢,全部都是图形化界面,监控每一个组件的运行情况。高度自动化,那如果那同学老师说了,那你为什么上来不讲?上次讲完世界之后。让你要真正的让你去答一娃花题完了。所以说咱们讲的肯定讲了一个最原始的啊,原理性的东西,但是他用的时候呢,我们可能用的。呃,快速一些的。啊。这同时呢,一定要知道啊,提供了一个高可用的,高可靠的。啊,高可用高号大家都知道是吧,后面呢,我们看他原内部框架的时候,你就知道他怎么高可用高号了啊。还有呢,就是分布式的海量日志采集。啊,就说读取日志,这监控的一个日志。采他的,然后呢,聚合啊对,它里面如果是多台日志的话,最终它是要聚合到一台活动卡。
03:01
这里面这这个都是啊,都可以是,但是母还可以有一个二级的一个聚合,包括我后面的酵母当中,就是采用这种二级层架构啊,后面会给你详细的分析这个架构的原理啊。行,这是聚合,还有呢,就是传输数据,那就是将日志里的数据啊,比如说导入到HDFS,或者是卡不卡啊等等其他地方,包括像本地落盘啊。你就存到这个本地里面去。啊,等等都可以啊。那呢,是基于这个牛市架构零点。那刘氏架构。什么是流啊?像水流的一样啊。连续不断是吧,哎,那你说他读这个日志啊,也是一行一行连续不断啊,直到的读没。啊,那大家日志这边呢,也是动态往里增加了啊,那就讲将来就诶进来出去进来出去啊。好,那么来看一下为什么要选择。
04:04
行,从开发中啊,举几个场景啊,呃,这个场景呢是比较多的啊,在大部分开发中都这么使用的,比如说数据的来源。网络爬虫。对吧,都清楚了,哎,扒取别人的数据,比如说最最常见的爬爬什么呢?京东的数据。东哥出事了是吧?摊上大事了。而且我看了一个帖子,写的还挺那啥的。陈,你干的?行,那这个是爬京通的啊,爬那个淘宝的啊,淘宝等等啊,嗯,爬完出去之后,然后进入到我们这个大数据系统。那有没有想过,哎,爬完这个数据之后,我就。这个数据要干嘛呀。首先这个挪过来是不是要清洗啊,啊清洗清洗是啥意思。
05:01
还不错啊,是不是过去在这个张数据啊,啊,过滤到这种脏数据啊,啊为什么这个问你这个呢,因为在这个后面的开发中啊。尤其相声啊。有些同学都学完了毕业了,说这个数据心理是啥,不知道,那你觉得让我崩溃了啊,必须得知道啊,数据理把账户就过掉,那给大家分分享一个企业的这个指标。那么多少的张数据算是正常的呢?比如说你有1亿条的数据。那有多少张数据算正常的?100条扣了一条,1000条扣了一条,1万条扣了一条。啊,我给你分享个指标啊,这个是前两天呃。上周跟阿里的一个技术工程师啊交流,他那边就是阿里那边给出的这个技术参数是这样的。一万分之一。啊,一万分之一算比较正常,但是呢,这个程序员就要看一看了啊,如果你要十万分之一那就不好了,但是你要是说你一千分之一那就废了,那一一定是他前期爬虫的数据。
06:09
啊,有问题了,或者说他这个规则制定的啊,有点问题啊。等等啊,所以说基本上这个均值就是万分之一。这这个其他公司不一定一样,但是至少这个案例还比较权威的。那哥们是。陈佳老师现在已经不写代码。呃,这是他从这一块来的数据,那这一块来的数据哪呢?就是Java的后台日志,这个说法是吧?啊,之前我们学的web还是。学的超级超级溜啊学的。那这块呢,就是呃,它产生的这个日志数据啊,等等这些日志数据,那我们肯定要读过来嘛。那这些数据呢,不管你是爬出过来的啊,还是这个Java后台数据,最终都要存到这个本地磁盘的文件夹啊,文件夹里面的文件对吧?啊,像这个有一些数据可以存到MYSQL有一些数据也是存到。
07:14
日志文件。我们这里主要分析的什么呢?日志文件的有。买这个那个后面再说。行,那总之呢,是落到这个服务器的磁盘上啊,你说套开的这个本地。那么还有一种数据来源是哪呢?网络端口啊,这个呢,方便我们一一会测试啊,我只是跟你说明,就是外边来的数据这个样式啊。有很多种对吧,你说这个邵园。原数据嘛啊,原数据五花八门,多种多样。有广告端口的,有加后台的,有拍摄爬上数据的啊等等这么多。那不管你多少,最终我反正我是要求把你们这些数据都给我送到as。
08:04
对吧,这是我们目的地吧,啊,目的就干这事。那现在就来了,那你中间这个桥梁怎么把B倒过来。我想啊,有什么办法把这数据弄过来。卡卡,你们不熟的话先不考虑啊。讲怎么把数据导到键盘上?哎,对啊,能说到裤子的,我觉得你这个年薪20可以了。对,月薪20,是年轻就哭了。啊,这个破的这个是肯定可以停的啊,可以写这个加va代码对吧,我们这个上传下载,这不是白教你的啊,这是真正的在学中要用的啊,而且这个代码呢,其实你可以用S脚本去啊。去调这个。脚本啊,调了个加班啊,包括你在这个本身这个程序里面自己去写也没有问题,对吧?啊定时的去读。
09:00
这边是get get数据读过来,读过来,然后put上去,写上去。都可以,包括前两天我跟一个老学员,呃。回来吧,请回来吧,分享下相应的一个基础经验啊。呃,咱们这边肯定这地方中间用的是啊。他们企业当中用了一个非常奇葩,呃,老旧的技术,什么技术呢?老狠了,老狠了,这个当时我就备了。啊,这太狠了,再用IP啊,然后把这数据直接干到is上啊。到了本地也要上班啊。这是真实的场景,发现了真实场景这么干的,当时我都诧异了,我说怎么能这么干呢?完全用啊,打过来啊不用。但但是啊,真正的专业版的啊,这个有点跑偏了啊,专业版是什么。啊,因为是专门是干这个的,而且它内部啊,像这个内部啊,有大量这个事务,事务是干啥的。
10:01
就原始性啊,啊,一是这个药物失踪,药物失败啊等等,包括它内部还有相应的缓存。这是专业的优秀的这个赚这个事情的框架啊,这种专业的你不用你自己整这个那种山寨的啊,他根本就不是主要干这个的是吧。行,那这个是用专业的。来做这件事情,也就是说你前提你可以有任何类型的是文件的啊,是端口号的啊,其实还有这个像这个呃,文件夹啊,还有这个相一些命令啊等等这些不管你是啥。他都有香的,So。你说上诉人输入员啊,那这边呢,叫最终输出的目的地。他叫think。到这边是到到卡卡还可以到本地。还可以新得到控制台。等等N多个出口啊,都用它,我只需要改变它的配置就OK了。
11:03
写代码有一个特点叫什么?结果。可配置是吧啊。类似这种是高质量代码是吧,啊灵活的,我只要修改简单几个参数,我就能实现我的功能的一个最大的转变。这个是非常好的啊,啊,所以说这就是为什么采用这个服务啊。非常灵活。行呢,最主要的作用就是实时读取服务器本地磁盘的数据,实时来读这个日志产生的日志,然后将这个数据写入到HS。这种场景是非常非常多的。当然也写到这个卡卡的啊,写到卡卡呢,其实是为了这个消峰。要的。有一个峰值是吧,尤其像双11啊,啊还有这个有一些时间段,比如说晚间啊,你的手机这个点击量可能会高。一些吧,八九点钟。这是这样啊,所以说这个呢,呃,在这个日后的学习当中是非常重要的,它主要的用于这个采集日志啊,到这个S或者。
12:11
那你想一想,这个日志是不是不该变化?对吧,哎,它是不是这边一直产生产生,然后往这里追加了,哎,你不管你怎么追加,哎,我都是把你增量性的。这是。
我来说两句