00:01
好,接下来呢,我们讲一下这个2.6大数据技术生态体系啊。这个呢,对于以后的这个学习非常非常有帮助啊,你要了解一下在整个这个大数据生态体系当中,你要学习哪些内容啊,这些都是你未来要学习的一些框架,它处于整个生态体系当中的。哪个位置?啊,应该怎么去学啊,我们来了解一下。哎,首先呃,来的是这个数据来源城。也就是说在你这个大数据生态体系当中,数据啊。有哪些会进入到你这个系统当中?啊,有这么几类,第一类呢是这种。数据库的数据啊,比如。结构化的数据啊。这也比较多哈,比如说像那个商品的订单对吧,啊支付信息。等等,这些都是存到这个数据库里面。那这些信息呢,是未来要进入到大数据框架当中的。那还有什么呢,日志信息。
01:01
你浏览网站的这些日志的行为,就说你比如说你点击了第一个页面之后呢,在第一个页面上,你就点击了第二个页面,就点击第三个页面。包括你还看了一些保健品啊。买了还有日本。等等这些事情啊。啊,他通通的给你记录下来啊,叫用户行为日志。通过日志的形式啊。这个给你保存下来。那这种呢,叫半截化数据。其实什么意思呢,就是像这种数据呢,它最终是可以转换成。数据库里的数据的,这叫半句话。OK,那后面还有一些呢,是这个视频PPT啊。啊,像音频等等这些,那都属于。任何规律啊。那这个呢,就是进入能进入到大数据框架体系当中的数据啊。多样性啊。OK。进来之后就进入到了数据传输层。
02:01
它并不是直接就进入到这个分析体系啊,直接对它进行分析,并不是这样的,首先要把这个数据通道打通啊。那这里面有这么几个框架啊,一个呢是那个库啊。他是专门负责啊,导数据里面,导数据库里面的一些数据的。啊,这个是离线的进行一个导入导出,把这里的数据,比如说。那后面的还有表里面。导入到S啊等等都可以用这个。那另一个呢,像这个处理这个日志信息的数据。啊,往往我们用的都是。他读这个日志呢,是非常非常专业的。包括我们后面那个做的这个项目啊。用的是去读取这个日志啊定。OK,那还有那什么呢,卡不卡。啊,他这样一个消息队列啊。下,要是学过加法的同学呢?他们应该学过各种什么抓大秀。
03:03
这其实就是一个门的店。那这里面我们最主流的用的都是。啊。OK。这块。那这样。这个数据传输过来之后啊,那要最终要存储下来。从将来呢,我们比较主流的是北京FS。嗨,其中最擅长存储书界的地方就是它。同时呢,这个像这个卡夫卡。它内部也能缓存一些数据。至少默认的值就是一个G的数据。呃,还有呢,是H。它属于非关系数据库。跟这个MYSQL关系数据库略微有些区别。它存储的是以这种KV对的形式啊。那存的时候呢,最主流的是HDS。
04:02
OK,那再往下。这个数据存下来之后,那我要对它进行分析,分析你就需要资源,你就需要CPU需要,内存需要,磁盘需要。那这些呢,都由雅安来。负责掉。那再往上,那就是真正的。数据计算。数据计算的这块呢,又分离线和实时的。那左侧这块呢,目前是底线。离线里面又分了两类的框架啊,其实不止两类。目前又出了一个。是吧,啊。呃,60呢,其实它是属于这个。态度的核心,分析计算的框架。或者离线。那个呢,是那个SPA号。是基于内存的,内存差哪个快?肯定是内存呢,对不对啊,内存就相当于你用固态硬盘和普通磁盘这个区别啊,非常之快啊内存。
05:06
那么内存有什么这个。去年的。调电是不是数据丢失啊?这个时候也很。明显。比如说非常重要的重要的东西正在拷贝。这个售。老师关心的辅导和视频是吧?珍藏多年。突然间。是吧,啊,断电了。这个是呃,离线的有一个是失败的,一个是面六层啊。OK。那在这个基于map流水之上啊,有的have和啊等等这些数据分析的一个工具,这样一个have呢。它其实底层就是卖五六。因为写程序的时候相对来说哈复杂一些,它需要至少要三个类。啊。就是类转类啊。
06:00
那这么三个写起来比较麻烦,能不能用一些思索语句就把它实现了呢?Have就能简单的写一条口。这个是为谁而诞生的呢?A加Y。啊,因为加完一乘员最擅长的就是。正常干啥对吧啊。天天就写社口,所以说呢,那而且这个Java的程序员已经积累了20多年,对吧,啊大量的这些程序员。他们最擅长写这个,所以说呢,他们就把它底层封装为二六十上层的就是写。就能实现一些超级复杂的功能。像这个目前咱们老学员接触到的写狗。基本上都是。比较少了啊,你不要觉得这1000很难。其实一点也不难,也就说在这一一千行当中。
07:02
也就有。六七张表吧。张表。就各种找。张都熟了。观看婷姐的美丽了。放的这个噪音怎么办呢?行,那这个呢,是这个张宇啊。说在这个have have当中,他最擅长的是circle啊。后面也会讲重点讲这块呢,一定要重点去学啊。教程的熟号,然后卖号的呢,这块呢,是偏这个学习这块啊里面。好,那再往后呢,是这个18。18个集中了很多功能啊,包括。学习的一些算法,还有这个SPA方啊,各种通讯化页面啊,包括一些分析工具。同时呢,还有这个SPA。主要是数据查询,它跟have非常类似,都是里面写circle,实现你。
08:04
复杂的分析计算的过程。这个是方便我们开发人员的。那左侧刚才讲这些都属于离线机串,适合于什么场景呢?比如说统计。日货。越国。他并不是实时的,比如统计当天消费情况,本月消费情况,本年消费情况。那是不是都不是这个立即去处理啊。都是把这一天的数据收集完,每这个月的数据收集完,乃至于这个年的数据收集完,再进行预算。使用离线运算。那么像这个天猫双11实时的显示计算100亿这个销售额。那这个是怎么实现的呢?类似于这种。和。
09:03
像这个呢,是属于这种准实时。它并不是完全事实。什么叫准时实施呢?它底层采用的是这种批处理。批处理这个概念能理解吗?哎,是一批一批的处理啊,那要一批的话,那是不是要等待一下。只不过是VP处理。等待很少就处理了。那实时这个呢,它就是实时预算。来了就算。的区别啊。呃,目前为止啊,主流的这个知识预算啊。绝大多数采用的都是20厘米。这个呢在走下坡路啊,好多这个老公司还在用啊。你们目前市面上呃能接触到,但是真的很少。呃,咱们毕业了这么多学生当中应该有两到三个同学。最近可能遇到一个。嗯,有两到三个同学。遇到过啊。
10:01
我这有现成的视频啊,但是咱们后期肯定。啊,因为这个的用处跟10SPA个比18比啊,差的真的是太多太多。好多公司都已经把他淘汰了,原因很简单。看Spark你集成了多少功能。一堆功能啊,我这里还有好多没列出来的。你只要把SPA群机打起来,几乎上面这些所有功能,无论你是这个离线的处理还是实时处理,通通。一套一套服务器。那么你要搭这个的话,额外的你还要搭一套集群。额外的,你还要付出一批人员。这个成本很高的。啊,非常高,就几台服务器。8万。然后你再加上人员的成本维护。而且专门为他,你还要准备前面的数据的一个通道处理。非常之呃。耗费人力财力哈。
11:00
所以说目前为止,这个东西逐渐在走下目,逐渐在退出历史的舞台。最近有一个比较火的什么呢。的设计呢,完全是对标这个是吧,他一种他这个套路,什么套路呢?把基基本上所有能集成的功能,全部功能的。这种方式啊,后面的话可以考虑给大家去增加这个课资料是现成的啊。只需要去讲一下。看看到时候,嗯。行,那这是这一块,那在这一块之上啊,那就是任务的一个。调度器。同说这上面我这都分析完了,你还调调度啥呀?那问大家问题。在你们这个集群当中。那这个任务调度什么意思呢?你这么大一个集群里面肯定跑了很多很多兆,比如说你这里面要分析很多很多指标。
12:08
啊,可不止一个啊,正常一个集群这里面都是至少是500个企业啊任务。500到几千个。同时在运行,那么这么多任务问大家问题。其中某一个任务。从几点开始起啊,从凌晨开始起,假如说哈,那起到几点呢?起到一点,起到两点。谈起的三点运行多长时间?第一个是什么时间起,第二个是运行多长时间,那这个任务,比如说这个第一号任务。启动了我第二号任务,依赖于这个第一号任务的完成。是在这儿再往后走。那我这是第二行任务。那我第三号任务还要依赖于他。对吧,啊,那等等,那同时我这个一号任务并行的可能还有个四号任务。甚至这个四号任务可以拉到这。
13:00
那这个任务的开始时间,任务的执行时间。任务的这个一个并行度。任务的一个串行度。等等,这些都需要一个任务调度器,对他进行一个统一的管理啊,定时任务,让这个任务执行多长时间,他执行完之后谁在执行,他执行完之后谁再执行。等等一系列的事情。都需要一个调度。呃,在我们未来学习当中啊,一个是。一个叫阿兹卡班。其实还有一个。C的低保。刚鸡巴没讲啊。回头给大家补上啊。钢铁linu是本身自带的啊,定时任务。这个乌贼呢,是属于这种偏重量级的啊。呃,它里面的功能的。是最复杂的。讲的是最复杂的一个啊,像那个阿斯卡班呢,是偏简单一些的,呃,里面的东西呢,没有它复杂。
14:05
他弱了很多啊,我这有现成的资料直接安装可以使用。这是整个大区生态再往上啊,这还有一个。不起眼的一个主板。在未来的几天,我们要学。他负责整个集群的一个配置和调度,什么意思?他会收集你这里面好多框架的配置信息。同意改变的通通都放到这里面。那在改变的时候,我只改变这里的信息就OK了。比如说呢,比如说这个Spark的一些配置信息,我放到主课里面,那我要改我就改这里的。改完之后,他一分发。那么大问题,你这个Spark如果说有1000台服务器。你要改一个配置。你是把所有的都一台一台去改吗?啊,你还是把这个公共的一个配置就放到主里面。
15:03
那我是不是就改这一个就。就这个道理哈,一样的道理,包括像那个呃,像那个海等等都是。一些容易变化的信息,我们通通放到这个主题本里面。改的时候就在这里,一下就搞得搞定。啊,再往上呢,是这个业务模型。也是具体的去解决企业的问题。那这个呢,主要是加的一些任务啊,包括呢是一些业务指标。老的一些关系哈。业务模形成数据可视化啊,业务应用啊等等,一会儿呢,我们举个案例看一看哈。再就是整个数据。数据的来源啊。导传输到存储。资源的调度。最终分析分析又分两块,一块是离线,一块是实施。
16:01
实施,然后之后上面又分调度啊,对调的任务的一个统一的管理。同时呢,你要想对这个集群配置信息的一个管理,可以。放到里面。最上层才是最终的一个。业务模型上。OK。
我来说两句