00:00
好,接下来呢,我们就根据技术选型主要考虑的因素进行实际的选型,好数据采集传输通道这一块,我们选用的是卡不卡scoop。因为呀,我们的用户行为数据是存在文件里面。业务数据呢,是存在MYSQ里面,那我们用和卡夫卡来专门处理日志文件。因为擅长读取文件用卡不卡呢,是为了防止读取的数据过大。导致这个数据积压,哎,我们可以通过这个卡普卡呢进行一个消封。哎,防止这个数据量过大这么一个情况,那好,那my circle呢,我们专门用这个SCO来导这里面的数据,哎,它是非常擅长的。哎,都可以用来读取对应的文件,那么为什么选择呢?因为行业内用相来说要多一些。
01:02
那love他跟谁配套呢?属于那种没有大数据的公司。哎,专门用来处理日志的。Elk简称,那这个L就是对应的log缩写,E呢是elect key呢是keyan,我们在后续的项目当中会涉及到啊好,呃,还有一个date叉,Date叉呢是阿里推出的一个导数据的一个框架,也可以导买的数据。哎,这个scoop和data叉目前市场占有率差不多一半以上。啊,我们这里面选择是它,我们后面在做项目实战的时候,另一个项目里面会用到对应的data差,哎,就是说把所有的技术争取能够都覆盖到啊,OK,那再往下数据存储这一块,我们选择对应的mysq a DPS。像MYSQ的话,我们主要存储最终数仓里面分析完的结果数据,数据量非常小了,对吧,每天一个指标嘛,比如说日活是多少,就是一个数相对来说少,那S主要是跟配套,比如说的数据是存在。
02:14
也是数仓的数据是在这。啊,存储海量的数据,那HPSP也可以存储数据,其实这里面我们用到了里啊后面的一个啊,多维查询的一个框架,它里的结果数据也是存储在h base,哎,同时这个h base我们后面再讲实时项目的时候,也会用到它进行存储一些快速的往里面插的数据。呃,这个red也是可以用来存储数据,只是我们这项里面没用,也是在后面我们讲实事项里面会用到作为数据的缓冲啊,Mango DB,像mango DB啊,啊,好多这个爬虫类的公司,他喜欢把爬虫回来的数据写入到mango DB,那本质项目呢,由于我们没有爬重数据,所以说这里面我们暂时不用。
03:03
接下来我们看一下数据计算引擎这块,那数据计算引擎这块目前业界比较主流的have has Spark flinkto。啊,那have,我们这里面选择的是have和t have呢,它是基于默认是基于MR对吧?啊也是来计算,那tag引擎呢,它是基于内存的,计算速度要快一些。我们后续会把这个项目啊,更改为基于Spark引擎,每天跑这种定时任务。那再往后,当前非常流行非常火的flink啊,它也可以用来计算,非常非常火。那STEM呢?STEM呢是属于啊,没落的贵族啊,已经很少有公司再去使用了,如果是新项目的话,你几乎看不到到。只有个别一些老项目或者一些政府项目,你还能看到STEM的一个身影,OK?下面来看一下数据查询这一块,我们用哪些组件。
04:04
哎,就是机器查询,那机器查询呢,呃,我们用的是S和德鲁以及。那呢是用于,诶,产品经理走到你的跟前说你给我算一下,当前这一次课目前数场里面的日活新增留存是多少。哎,可以通过它快速的产生出来,那这个德鲁伊呢,它属于实时处理和流批处理,就是批处理一体的主要处理这种实时指标,它呢是支持预计合,还有这个列式存储加压缩处理速度呢非常快。但往往一些企业处理这种纯实时的指标,愿意用它。啊,那还有一个inar inar呢跟这个P啊,它俩是一个竞品,就说都能够实现这种机器查询相关的功能,那从性能上来说,Inar呢,相对来说要快一些。还的时候呢,啊,要稍微弱那么一点点。但是如果从支持这个多数据源这个角度,比如说像它可以支持卡,数据都能够读来。
05:09
进行一个查询,那它的支持多数据源更优秀一些,那目前在市场上怎么选择呢?如果你用的是阿帕奇框架,我们更希望你选择是P,因为它的安装使用非常方便,如果你是CH,那我建议你使用的是inaller,因为CDH默认集成的就是aller。啊,非常方便,直接拿下来。那如果为什么说用阿帕奇就不选择inal呢?因为阿帕奇版的in帕安装使用非常困难。安装成功的概率非常低,所以说不建议大家使用啊,从安装类角度去考虑的。那后面还有我们用到这个PD,它属于多维查询。比如说我们统计啊,哪一天谁买了哪些商品,哎,相关的一些统计涉及到多个维度,那么可以用PD,它是一个多维预聚合。
06:01
啊,提前把这个结果啊,写入到对应的h base里面,那你在查询的时候就能快速的得到对应的结果。啊,这是P的一个好处,那再往下数据可视化这一块,数据可视化呢,目前业界像有一串。那是百度开源的一个框架。啊,用起来呢,这个页面啊也还是比较不错的,但是开发这个要求相对要高一些,你要懂一些基本的JS代码。啊,一些接森要懂啊,包括前后端的一个调用接口啊,要熟悉一下。那这个呢,开发难度稍微要大一点点,那这块呢,它的难度是非常简单,只要你把结构数据写状买成里面,在图形化页面上一配置,就把数据倒过来了。而且展示这种柱状图啊啊柱状图。饼状图,还有对应的折线图,都非常方便。那后面还有一个叫quick BI和date v,那这两个框架呢,都是阿里啊,也是阿里云推出来的,那像quick BI主要处理这种离线指标的可视化展示,Datav呢是处理这种可视化大屏,非常酷炫的那种大屏,像双11对吧?哎,实时展示交易额用的就是DV。
07:16
那这两个我怎么选呢?这两个呢是收费的。虽然说页面很好看啊,如果你的预算不够用的话,比如说总成本这块预算不够,那你就可以考虑它了啊,你可以选择前两种,那前两种如果的技术开发实力弱一些,你可以选择这个,如果特别强对吧,我这个前端工程师,嗯,特别牛,那我可以选择BR。这是这样一个,那再往下。任务调度这一块,任务调度这一块,目前业界比较主流的阿兹卡班和对应的物,那像这种中小型企业往往会选择阿兹卡班。因为它的功能呢,呃,比较实用简单一些uz它的功能非常多,能满足你的需求也比较多,但是一对于一些中小型公司,说实话用不了那么多,对吧?哎,所以说我们就选择这种啊,简单实用高效的拿过来安装使用非常轻松,加愉块,那再往下集群的监控这一块。
08:14
监控任何一个组件进程挂掉之后我快速的采取相措施,那我们这里面用到的就是。哎,可以把它集成对应的打电话报警,比如说任何一个进程挂了之后,我可以打电话,我可以发邮件,我可以发钉钉,可以发微信。都可以进行集成哈,那个网站呢,叫万友乐行。后面呢,这个原数据管理这块,我们可以采用Atlas,在当前目前用这个Atlas啊,做这个原数据管理的公司非常非常多。啊,非常好用,呃,如果不用atless行不行呢?也可以,你可以采用giup有对应的这个解析,Circle对应的加包,然后实现对应的元素管理讲展。那这样后数据质量监控,比如说监控这个书场里面日活新增,它指标的猛增或者猛减,这种现象我们可以采用什么呢?可以采用对应的,像瑞Y都可以,这三种我们都实现,用格瑞去监控,用写脚本去监控,用Python脚本去实现,都能实现。
09:20
啊,非常简单啊,行,这就是我们的技术选型。
我来说两句