00:00
好,接下来呢,由上硅谷最帅的男人,江湖人称大海哥给大家讲解电商数仓向。好,讲该项目之前啊,哎,我们先解决两个问题,第一个问题,我们为什么要学习该项,比如说学习该项目,我们未来能找到一个什么样的工作岗位?是吧,这是我们关心的第一个问题,那第二个问题呢,是你这个项目是否足够优秀对吧?哎,足够的吸引我,你这个项目里面包含了哪些核心的亮点啊?哎,这是我们第二个问题。行,我先给大家解决一下第一个问题,为什么要学习该项目?那好在这个大厂当中啊,哎,这个大数据部门呢,通常情况下会包含这么五个主,哎,五个组,那这里面是大厂啊,如果是这个小厂的话,或者是一些小公司,那他们通常就一个大水主。
01:00
这个每个公司呢不太一样,那这里面我说的是一些通常的一些大厂内部的一些结构啊,首先来看一下,那这里面呢,有这么几个工作岗位,第一个呢,叫平台主。第二个数据参数组,第三个呢实施组,第四个数据挖掘组,第五个是报表开发组。那光这么一说完这五个组的名称,晕了啊,这五个组都是干嘛的是吧?哎,那行,那我们接下来呢,就来解决一下这五个组分别都是干什么事儿。那这一个平台组,平台组啊,这个非常简单,哎,他干的第一件事呢,就是负责框架的一个搭建,比如说负责嗨度安装,浮动的安装,卡不卡的一个安装,哎,负责这些组件的安装的。这是第一个。工作岗位需求,那第二个呢。集群性能的一个监控。比如说我这个集群呢,哎,运行过程当中,突然间有某台机器挂掉了。
02:01
或者某台机器性能呢,这个内存不够用了。那不够用了,怎么能把它快速的发现出来呢,对吧,比如说他这个有一个孩子法突然间挂了。那我能不能立刻的就把它抓到,说这个孩子我挂了,那我要想办法啊,进行后续的一个修补维护。那我们需要第一时间发现,那发现这个功能呢,就是集群性能的一个监控。那再来集群性能的一个调优。你说你这个集群啊,运行不是特别稳定了,或者出现一些数据倾斜,哎,出现一些OM等等这些情况的时候,我们如何来优化这个集群。哎,让他达到一个更加的一个效果。这是平台工程师要做的事情,那你可以上这个智联上去这个搜索,哎,大数据平台工程师,那你看一看他负责哪些事,通常情况下呢,就是这么三件事。框架平台搭建,集群性能监控以及集群性能的一个调优。
03:06
好,那下面我们来看一下数据仓库组他们又干什么事?哎,数据仓库组呢,哎,这一个呢,叫ETL工程师是负责呀数据清洗的,有同学说海哥我连隐都没洗过啊,我这个数据怎么洗是吧?哎,其实呢,这个非常简单啊,这一条的工程师呢,是主要负责来清洗数据的。哎,它清洗的数据主要是包括空值啊,重复数据,过期数据,哎等等,把这些数据呢,通过这个啊,海口啊,或者一些其他一些技术手段把它过滤掉就完事了啊啊,那再往下呢,是数据分析,数据仓库建模,绝对是这个数据仓库组啊,哎,这个非常非常核心的岗位,也可以认为是数据仓库的一个架构师。哎,后面我们在项目里面会涉及到啊,非常重要啊,那这个数据仓库组当中,哎,他的工程师呢,通常叫做大数据数仓工程师。
04:07
那再来下面来看一下这个实时组,这个实时组又是干嘛的呢?那你看没看过那个双11啊,哎,阿里呢,有一个可视化大屏是吧?哎,大屏实时显示这个交易额。那这个呢,就是实施组啊,他们负责做的一些事情,哎,实时指标的一个分析和性能的一个调优好。那通常他们叫做大数据实时开发工程师。再来那数据挖掘组呢?哎,数据挖掘组啊,哎,主要是通常情况下比较高端啊,偏向人工智能,搞一些算法相关的,比如说用户画像,哎,用户画像推荐系统再来,哎,算法工程师。那这里面比如说简单介绍一下这个用画线工程师。哎,你像这个,哎,咱们这个波波老师,那还有波波老师呢,他有个特点啊,喜欢这个啊晚上啊,啊没事呢,去12点去三里屯上班,哎,第二天那个早上五点下班。
05:05
那我们就会给他打上一个标签,说了他是一个夜生活工作者,这也就是打这个标签的过程,就是用户画像工程师做的事情。那后续呢,哎,我们根据这个用户画像打出来的标签,他是一个夜生活工作者,我们就可以给他推荐一些他喜好的一些内容。比如说他可能喜欢手指对吧,哎,喜欢面膜,哎,这是他生活的一些必需品,哎,给他推荐,哎,让这个波波老师呢,非常满意,哎,这就是用户画像工程师和推荐工程师,哎,这一个联合杰作啊,好,那后面呢,还涉及到一些算法工程师,那算法工程师呢,涉及到一些图像啊,语音呐,视频哎等等这些方面的一些算法啊,为这个积极学习提供数据准备的。那再来一个呢,这个是报表开发组,那报表开发组呢,哎,这里面就是哎让这个老板呢,可以看到一些企业内部的一些呃核心技术指标,哎,可视化了啊,比如说他可以看到这种哎折线图,还有这种饼状图啊柱状图。
06:11
哎,看这种图,那这个图谁来做呢?哎,就是由这个报表开发工程师,他把这个大数据,哎,前面这些主提供的数据用图形化页面的方式展示出来。这是他们来做的。那说了半天啊,海哥,你还没说这个,我们学完这个项目啊,能做什么事呢?哎,好,别着急,我们学完这个项目,哎,我们能够从事的工作岗位包含这么几个。也就是说,我们这一个数仓项目就可以覆盖掉平台组,你可以去平台组工作,可以去数仓组工作,也可以去报表开发组工作。哎,这个报表开发组啊,只能是一般的哈,如果是要求这个页面呢,非常非常酷炫,那我们就只能啊用这个第三方,或者有这个专业的前端程前端程序员啊,他们来完成,但基本基本上一般的工作岗位呢,是完全能够搞定的。
07:06
啊,所以说这个项目呢,是非常重要的,你看在企业当中五个工程岗位我们覆盖了啊,可以至少说两个半以上。对吧,哎,所以说这个项目呢,非常非常重要啊,那好,接下来我们来看一下第二个问题,就说该项目啊,有哪些亮点,我为什么要学习你这个项目呢。对吧,哎,来看。该项目呢,覆盖了当前非常主流的一些技术框架啊,比如说flu啊,卡普卡啊,Scoop,还有TS啊,还有什么阿斯卡班啊Z哎等等这些框架都会在该项目当中用到。哎,都是当前非常主流流行的。有同学又开始说了,说海哥呀,这么多框架啊,有一些框架呢我会,但是有一些框架我不会,那不会怎么办呢?哎,不会没关系啊,你可以呀,关注上微谷交易公众号,回复这个大数据就可以获取啊啊免费全套的质量,哎,上微谷的特点呢,就是免费分享。
08:05
啊,这个不收任何费用哈,好,那接下来我们看第二个特点。第二个特点呢,就是该项目当中包含的业务指标非常非常多,将近100多个指标,哎,绝对是一个中型公司啊,甚至中型以上一个公司一个规模。啊,所以说你把这个项目学好之后,你看这么多指标,你都要进行一个分析,在该项目当中都会涉猎到。那再来。该项目当中,哎,有脚本就40多个。用户的原始表啊,用户行为原始表是一张,右表20张,光原始表加起来就是35张。那驻仓内部呢,还进行五成的一个分成。那么加在一起的话,将近100多张。而且呢,本套这个舒仓项目采用这种哎标准的这个数仓建模理论,哎,比如说确定业务过程什么力度,确定维度,确定实施,哎这套标准呢,是严格的按照这个阿里啊啊腾讯内部的这套标准去做。
09:10
那再来主流的可视化技术supersh,专业的这个集群啊,监控组件扎克,以及呢,当前最流行的这个Atlas进行原数据管理。那下面呢,哎,下面这个呢是哎,我们在讲解这个项目过程当中啊,就相当于看我这个播这个动画啊差不多,哎根据这个数据的这个流向,一点点的去给大家,哎,这个叫庖丁解牛似的啊,一点点的给大家讲解啊,安装一个讲解一个,安装一个讲解一个。对吧,哎,非常非常清晰,就捋着这个数据的链条啊,一步步往前走,按照这张地图啊,慢慢的去实现,这是整个项目当中涉及到的技术啊,这么多,那这些技术当中,你看前面这些组件的一个搭建,哎,注意这块呢,是数据仓库的一个建模分成。
10:03
啊,这么两个核心岗位,同时呢,又包括数据的一个可视化。啊,覆盖了三个岗位,非常重要啊,希望大家在接下来呢时间里啊认真学习。
我来说两句