00:00
好,那接下来呢,我们看一下说我们的一个概述,首先一个定义啊,呃定义呢,它是这样,在其实就是官网上,这它也是最早是由这个cloud劳Y公司开发的,但是也交给了阿巴奇啊去维护的,所以说我们学的框架绝大部分都是阿帕奇的。哎,这个网速很愁啊,这么慢吗?行,那我们就不看那个官方文档了,我们对着这个来说一下啊,其实最早的时候我们刚才说了是科卫公开发的,但是他现在已经交给了华企了,对吧?啊,提供了一个高可用高可靠的。分布式。啊,分布式,其实它的分布式呢,跟我们之前所学习的哈度这个分分布式还不一样,它这个就是说将多台机器的任务呢,给它串起来了,到时候我们再聊这个事情啊,是有区别的,不是说搭集群啊,他不需要去搭一个什么样的一个集群,说配置去启动什么东西,他不需要启动后台进直接执行任务就好了,你要想采集什么东西,就单独的对这个采集任务呢,去执行一下,开启一个进程就好了,然后呢,他做的是海量日志采集,注意啊,聚合传输的一个系统,更多的应用面呢,是将本地文件上传到SDS。
01:28
啊,一般做这个事情的,但是另外注意一下,他是做日志采集的,呃,之前有同学呢,就经常采集的时候呢,往里面扔一个PPT啊,往里面扔一个图片,它就会报错,它识别不了啊,它只能识别这种类似于这种文本文件啊,文本文件它是可以采集的,但是你要是图片PPT,类似于这样的音频视频不行啊,你不要你可以去试一下,你也可以说我去监控诶一个目录里边,我再往里边扔这个视频音频,你看一下它报错,这个任务就会报错啊,它不识别的,所以说这个就说的很清楚了,他是日志采集的啊。呃,基于首先所谓的流失架构,就是说它是动态采集的,你我们想的是这个文件生成了之后,我们拿来上传,我不是为用put对吧?R from呢,是迷网日志里边动态写数据,它动态的去获取的,就是你写一条,它上传一条,写一条上传一条。
02:19
它这样的,也就是说from这个框架呢,以后我们在做Spark做或者link做流式处理的时候,还可以用得到它,因为它是动态采集的,能懂这意思吧,不像的,如果用的去采集的话,你能做流失处理肯定不行了,对吧?啊是这样的意思啊,我看下这个官网打开了,其实刚才我们所说的就是第一句话对吧?啊,分布式的高可高高可用的一个服务啊,这个服务是为了干什么事呢?收集聚合和移动什么大量的一个log data啊,日志数据,对吧?啊,日志数据它不是说数据啊,注意所以说呢,你不要往里边音频啊视频啊,你也可以测一下,当然啊,好,这是我们的内容,其实架构也在这啊,等会呢,我们再去聊这个事情,好,然后接下来我们想一想,为什么要用这个输对吧,其实刚才已经说清楚了这个事情啊。
03:19
呃,我们一般的数据呢,来自于这个爬虫数据啊,或者说来自于这个Java后台日志啊,就是Java系统的,就是说京东淘宝这样的一个平台,对吧,开发系统它会将数据呢写到什么。服务器的本地磁盘,但是我们所有的学习的框架,分析框架啊,它用的系统呢,绝大部分都是hfs啊,IDFS,目前市面上用的最多的一个分布式文件系统啊,当然它不是唯一的啊,它还有几个还是很多的,包括亚马逊的啊,有同学可能看到S3协议开头的啊,亚马逊呢,它也是一个分布式文件系统啊,比较多,但是目前来说生产环境当中用最多的还是FDFS用的最多的,所以说我们就讲主流的,那这个数据呢,我们需要给它上传到哪了,当然还有网络端口数据啊,上传到HDFS或者说其他的框架里边。
04:12
啊,它下游也不光可以对接这个HDFS,所以主流的应用啊是这个就中间呢,加一个什么啊,当然呢,他还能够接收,就是说无非你看啊,起到了一个什么作用啊,这是数据源,这是数据目的地传输的,对吧,做这个事情的,那他的数据源不光有本地文件,还可有端口,还可有很多其他的。它的数据源比较多,当然这后面我们是不是叫数据目的地啊,除了ID之外,它还有很多其他的。啊,类似于这样的东西啊,当然最主流的我们的应用在生产环境当中,还是将本地文件干什么,上传到HDFS好,那还有一个问题啊,那本地文件系统里面的文件上传到IDFS,我是不是可以用po的,那为什么还要用这个from呢?实时对实时的,它是动态采集的,对吧?如果说你不做实时,就是每天分析的数据呢,都是对前一天的数据,我完全可以不用什么,不用输录我的数据生成好了之后,写个命令给它put上去,是不是也可以啊,上传到S,但是由于我们后期呢,还有这个实时的业务啊,我们可以用动态的采集,就来一条采集一条,来一条采集一条啊是这样的一个操作。
05:30
对吧,所以呢,他就充当了一个中间的一个角色啊,它可以对接源头数据源,对接数据目的地啊,是这样东西,典型的应用呢,就是说这个啊,主要就突出一个什么实时读取啊,它实时读取的就来一条或上传一条,对吧,然后呢,可以读取本地文件,然后这个是最主流的应用啊,当然还有其他的很多应用啊,这是我们说的它的一个概念,以及为什么要用这个啊。
我来说两句