00:00
好,那接下来呢,我们看一下这个我们要学的一个新的框架,叫那还是一样的,呃,这个框架是干什么事的呢?大家想一个问题啊,首先我们聊一下它这个作用,对吧,之前我们学过哈杜,学过这个have,呃,它呢分别有这个存储功能,有这个计算,所谓的这个分析。对吧,做这样事情,但是大家有没有想过一个问题,那生产环境那个数据最早的时候给大家介绍哈杜那个时候说数据都是一般是用户,呃在这个平台上的一个操作产生的一些日志,对吧?21为修部行为,那呃操作日志呢,肯定是落在服务器里边,它不会说操作日直接就到HDFS了吧。对吧,所以说中间是不是还缺了一部分,就是如何说把你这个数据传到HDFS。就中间有个采集功能,对吧,我得把落在磁盘的,也就是说诶,我生成的日志啊,应该就类似于have这个日志,它日志是不是在这个Linux系统里面包括一样的,这是have这个框架,那无非就是公司当中我们搭建的京东啊,淘宝啊,它不是也是运行在我们的服务器上面吗?它所产生的日志是不是还是在Linux里边。
01:17
但是我们分析框架是不是多对于这个HD数据做分析的对吧?所以说呢,我们这个框架的干事呢,能够将我们本地的产生这些数据啊,给它上传到HDFS啊,就是一个采集功能,对吧?所以说大数据啊,解决的其实主要的是三个问题,就是以后框架你就可以往里套,就是海量数据,首先第一个对吧,啊采集存储和计算,只有这三件事情啊,那其他的我们所学的u kable,还有未来要学的可能有那个什么大家可能知道的阿斯卡牌等等这些东西啊,它是属于一些工具类框架属于些工具类,那UK呢,帮助我们存储这个很多框架的重要信息的,共享的这种重要信息的数据量肯定是很小的。
02:04
对吧,因为它一个节点默认只能存一兆数去对吧?啊,所以比较小的好,那这种属于工具类框架,工具类框架呢,大家能够搭起来会用到这种程度就够了啊,也不会涉及到它优化,而我刚才提到的阿斯卡曼这个东西对吧,它是类似于大家所学习的另文命令当中这个内容。口号都不还记得吗?定时的对吧,因为生长环境当中任务啊,我们是不是每天都要执行很多任务啊,而且一般是不是在凌晨什么30分啊,或者40分凌晨的时候开始执行。等头一天数据都到齐了,然后我们去计算呀,对头一天的内容做一个分析,对吧?啊,昨天我们整个的平台登录用户啊等等这些的情况,那不能说到了晚上00:30的时候,你自己说打开一下这个查晒,然后把这个任务去跑一下吧,对吧,他需要一个定时呢,那刚刚才想,那我们有了康德,为什么还要用类似于阿斯卡这种工具呢?因为康德它不能做逻辑调度,因为我们有很多任务啊,就是说A任务运行完了,然后运行B任务,再运行C任务,类似这样操作,而carable我们是不是用定时啊,定死了说第一个任务呢。
03:15
在00:10,第二个任务00:30啊,接着运行了,假如说那天晚上,假如说是每个月的一号,他任务肯定会多一些,因为不光有按天的任务,是不是还有按月的任务,很有可能这20分钟之前的任务没运行完,没运行完用康调度的时候,是不是第二个任务也会开启,那你觉得第二个任务启动还有意义吗?没意义,因为数据第一个任务数据还没出来,第二任务启动也是失败,对吧?所以呢阿,这牌那个东西啊,就是一个做一个逻辑调度的,它能够判断第一个任务运营完了再运行调任啊是这样的,那这是工具类,只要会用就行了,所以整个的我们学习框架呢,就分为这四类。采集存储计算和工具啊,工具类是最简单的,而且讲课的时间呢也是最短的,而采集的东西也相对来说,呃,相对来说啊,就是说它也简单一些。
04:10
啊,简单一些啊,是这样的东西,那最难的其实就是计算的,就类似于have呀,妈呀,Spark flink这些东西是最难的啊,是最难的啊,所以呢,要把握这个点啊好,那我们看一下刚才我们聊的from呢,它其实就是一个采集工具。对吧?啊,而且官方文档呢,写的比较细啊,等会呢,我们到时候讲课的时候呢,结合官方文档啊,在工作当中也一样,对着官方文档去粘一点,按照我们自己的需求去做一个配置的调整就好了,那整体我们要介绍什么东西呢?还是一样的啊,我们把这个去折叠一下,第一个概述我们就聊一下它到底干什么事的,以及它里边包含什么东西,类似于它的架构啊,对吧?啊,这些东西我们需要去了解一下啊,那第二个入门就是说一些简单案例啊,一些简单案例,那第三个就是进阶,就是说它里边核心的原理啊,中间涉及到事物啊,整个的内部的框架,详细的架构信息是什么样子的,以及在企业当中我们所常用的一些内容。
05:08
啊,这企业当中我们用的一些东西,当然不是涉及所有的,因为整个所有的东西还是很多的,最后呢,还有一个面试题啊,就面试题这块啊,主要的是这样的一个东西啊,像还展开这是我们对于父母当年的课程的一个介绍啊。
我来说两句