00:00
好,接下来我们讲解一下大数据技术生态体系,其实啊,也就说明一下哈杜在整个大数据生态体系当中,它处于一个什么样的位置,方便我们后续的一个学习哈,那在整个大数据生态体系当中啊,它的数据源有这么三类置,分别是结构化数据,半结构化数据和非结构化数据。那什么叫结构化数据半结构化和非结构化?解释一下,那像数据库里面这种有行对吧?哎,有列这种有二维表格的就叫结构化数据,那什么叫半截化数据呢?类似一个文件,文件里面一行,但是每一行啊,还有这种分割符,哎,分割出来的一个字段,一个字段的未来呢,它可以导入到MYSQL。这种结构化数据里面,那它就叫半结构化数据,那像这个视频和PPT这种很典型的是非结构化数据,你根本就转换不了。对吧,那行有这么几种来源。那这么几种来源,我大数据框架能用哪些技术来处理它呢?比如说我们来处理这种结构化数据,用什么组件更合适呢?
01:08
那我们后面讲离线数仓的时候,用的就是这个S库框架来同步买售候里的数据到我们的,还有受仓里面。那还有我们未来还有这种像处理每个用户的用户行为数据。比如说一个用户来到网站干了什么事,对吧?哎,点赞了,评论了,还收藏了,那这种用文本形式存储的,用哪个框架来采集呢?哎,比较合适。那还有像这种视频PPT非进化数据。哎,我们可以用卡普卡来处理。那当然这个卡法呀,它也可以处理。这个半句话数据和结构化数据都可以啊,非常强大,后面我会重点给大家讲解好不好。OK,那这也叫数据传输程。那再往下走,那数据接收完之后是不是就得存了。对不对,哎,这个相当于是前台的这个。
02:01
小妹妹,对不对?哎,把客人接进来之后,你是得安排酒店住下,那住下的框架呢,就有APS h base好不好,都可以进行数据的一个存储。OK,再往上走。那上面呢,是整个集群的资源的一个调度,由他来安排。对吧,哎,安排,比如说客户能不能住得下来的人,能不能得到满意的服务,由他来管理。再往上。上面呢,就是数据的计算程。那计算呢,这里面包括像用MAP6,你说hi的组件进行计算,那还有呢,我们日后要学的10SPARK进行计算,那它俩是有区别的,你像MA6呢,是完全基于硬盘的。那Spark呢,它是有一部分是基于内存的。啊,那计算效率肯定他要高一些啊,后面会给大家先说,不用着急,那再往上呢说maps,它上面有一个have,专门来查询数据。
03:03
那想想啊,卖六呢,是需要我们写代码的。那这个效率啊要低一些,那还有呢,它类似于这种买circleq这种还口语句啊,也就是类类似circleq吧啊这种语法来查询,那是肯肯定比你写代码啊,这个可读性要强一些,所以说通常企业里面愿意用have这种语法啊来进行企业的一个开发。那再往上sparkrk呢,它上面有什么,像数据挖掘,还有Spark circle,哎,也是你这个sparkrk呢,是用RDD啊,其实是一个啊,它的一个啊,说2D点你可能不太懂啊,就是用用代码吧啊用代码来编写程序,那么代码编写程序肯定不如写SQ来的快啊,企业里面推行的这种SQL化的一种方式啊来解决。嗯,再往上这都是离线的哈,刚才说的都是离线的,那还有实时的一个计算,你说像这个双11啊,阿里要求这个实时计算当前的一个交易额。那用什么技术呢?你可以选择用Spark streaming flink,还有stone。
04:02
都是实时计算的框架,那像STEM已经可以说是过气了啊,这个只有一些老项目还在用这个STEM,新项目的话呢,要么用SPA swimming,要么用Li。而且呢,前两年用Spark streaming的要多一些,那最近呢,用这个flink的多一些。所以说flink呢,成为我们的重点,那现在我们的课程呢,光flink就已经升级到一个月以上了。啊,我们是,嗯,紧随市场的变化,市场需要什么,我们就第一时间升级对吧。再往上走,那上面呢,是这个任务的一个调度,那调度框架呢,有乌贼有阿兹卡班这么两种啊,其实还有什么阿尔flow对吧?啊,还有什么c table,其实都可以进行任务调度,那每家公司呢,这个会根据自己的任务的一个复杂程度进行一个选择。那好,那这个任务调度它能解决什么事呢?那你想啊,你整个集群当中可能有100多个任务。那我问你一个问题,这100多个任务都是同时跑吗?
05:02
不一定,对不对,那有可能有一批任务从凌晨一点开始执行,假如说这里面有五个任务,凌晨一点执行。这五个任务执行完之后,才允许执行第二批任务,有这种任务吗?有这种依赖关系的。那当然我还有说定时的,我就三点开始执行任务。可以吧,没问题。都可以,那谁来决定我这个任务什么时候执行呢?就由这个调度器进行一个配置,你想让他什么时候执行它就什么时候执行,你想让他前面几个任务执行完了再执行我这个任务也可以。都行好,那这里面还有一个主keep,比如说整个大数据平台的协调者,调度者。啊,他还记得他的logo吗?他的logo是一个动物管理员。那大数据很多框架是不是都是动物啊,哎,他其实管理这些框架了。啊,其实它叫润滑剂啊,这个辅助这些框架进行一个工作,呃,在我们大数据场景当中啊,其实主K呢,呃,我们应用的并不是特别多,你只要把它这个正常启动起来啊就OK,后面我会详细说啊,有印象。
06:12
我们对他的要求不是特别高。再往上,上面呢,是对应的这个业务层,比如说真正的这个,呃,我们要做什么事,解决什么问题,是对于业务模型的一个搭建,可视化分析,还有呢,真正的统计,比如说每天的日活,新增留存转化率等等一些指标的时候就会用到它,好先文一下,那下面呢,这里面有对应的每一个框架,对应的解释。啊,其实呢,现在也不用着急去看,后面呢,我们都会对每一个框架详细的去,呃去讲解,你大概有个印象,这样你学习起来呢,有一个整体的一个感觉啊。好,那下面呢,说一个推荐系统的一个架构图,我们来看一下说大数据生态体系,它是如何来解决问题的。那其实当前这个社会当中啊,呃,最火的一个抖音或者今日头条对不对,哎,他推荐的都是你喜欢的一些商品,对吧?还有一些电商啊,也是你在这个购买商品的时候,他都是推荐你以往浏览过的,或者你更关心的一些商品,那他是怎么做到的呢?
07:12
啊,或者说在你的APP上,你是不是还记得有一个叫千人千面,不知道听没听说过,比如说每个人的APP首页推荐的商品都不一样,比如说我呢,推荐的都是各种书啊,学习啊这种东西,那硕硕老师呢,推荐的都是这个。还有妊娠纹对吧,充满着首页各种信号啊,那行吧,那假如说宋老师哎,打开这个京东首页。然后准备购买还有人什么,那这个行为就会被记录下来。对吧,哎,前端有这种买点日志,可以把这个行为记录下来,那记录下来之后就会通过安啊负载均衡打入到日志收集的服务器里面。那他这种数据呢,通常情况下呢,是用文件形式存储的用户行为数据,那好,那数据就走到这,走到这之后由谁来采呀,由这个来采集对应的日志。
08:03
他采集完之后给谁呢?给卡卡。它叫消息队列进行一个缓冲,缓冲之后由于我们这是推荐系统,是不是得要求实时性啊,那我们直接得找这种实时任务。你可以做这个,哎,当前比较流行的是这两个。说他在这里面进行一个计算,计算宋老师,他点击这个。那他是想购买呢,还是什么,或者说我下一次给他推荐什么样的商品,能进一步的产生他的消费呢?对吧?哎,经过一计算返回给这个Java后台,对吧,那你返回的时候以什么形式存在呢?可以有两种形式,一种是这种数据库的形式,还有呢,可以以这种文件的形式存储。那不管你以哪种形式存储,你们只要协商好之后,那这里面又有一个Java后台业务,是不是把这个数据读走了,读走之后反馈给谁呀,反馈给宋老师展示的页面。对吧,哎,这就是一套大数据闭环的流程。
09:02
是吧,从这走走这走这走这走这。是吧,一直到这这么一套。哎,先有个印象,后面呢,哎,我们会有项目啊,详细给大家讲啊。
我来说两句