00:00
好,接下来我们看一下第二章项目需求。哎,我们这次项目呢,是完全按照真实的企业开发流程,比如说从项目需求,项目架构设计以及各个模块的一个实现这套流程完成的。那我们做一个项目,首先我们要知道我们要干什么事儿,对吧?哎,那这个项目需求往往在企业里面是由谁来提出呢?通常情况下呢,是由这个产品经理来提出啊,当然有一些个别小公司,它是完全由老板来决定好,那我们这个舒仓项目我们要做什么事呢?好,第一件事儿。第一件事呢,是用户行为数据采集平台的搭建。上节课呢,我们说用户行为数据是存储在日志服务器的文件里面。对吧?以文件形式存在,那么我们如何把这个文件里面的数据导入到对应的数场里面进行一个分析,那这里面需要中间的一个通道将文件。
01:01
导入到树上对吧?哎,那这个中间这个桥梁你如何来搭建,如何来进行相应的技术选型。OK,那接下来我们看第二需求,业务数据采集平台的搭建。那除了用户行为之外,还有业务呢?业务数据它是存储在对应的Java后台MYSQL里面。一个是以文件形式存在,一个是以MY形式存在。那你如何将MYSQL里的数据导入到对应的书上?那这个采集通道也需要我们来设计。好,那再往下看整个数据仓库的维度建模。这个维度建模是整个书上的一个灵魂核心。哎,它是整个书上的理论基础非常非常重要,目前市面上只有一本书啊,书上的什么工具箱那本书,哎,是专门介绍数仓相关理论。也是唯一本书,真正把这个理论实践的书籍,你在市面上找不到啊,也就是目前上维五现在呢,呃,出了一本书,是把这个理论和实践相结合的啊,非常完美的一本书啊,后续呢,呃,咱们发布之后,也希望大家呢能够参考借鉴一下。
02:15
那像咱们这个舒商建模啊,推出之后啊,啊,无论是咱的老学员去面试腾讯阿里还是头条,在舒商建模这一块没有任何障碍。已经有好几个同学成功的入职腾讯、阿里、头条。啊,所以说非常重要啊好,那接来往下看,那本次出让项目呢,我们分析了很多模块主题,比如说我们分析用户流量,会员,商品销售,地区活动等电商核心业务的主题。指标非常丰富,统计了将近100多个指标,也是业界第一份。哎,能做到什么程度呢?完全对比这种中型公司。咱们的后台的表加起来30多张表,这是原始表,如果说分完成之后将近100多张表。
03:05
基本上符合一个中小型公司的一个级别啊,当然你跟大型公司比没法比哈,你大厂的话1000多张表是吧?啊,特别厉害的,像那个平安啊,两三千张表也是有可能的。但是呢,绝大多数目前市面上的中小型公司,比如说100来人,200来人这种公司那是足够了,绰绰有余来看。下面这个数场里面,我们还要实现对应的及其查询相关的功能,也就说产品经理突然走到你的面前,说你给我统计一下今天到目前这一次课相关的一些数据指标。是什么样的?那你不能说你等一等啊,等我两个小时,我算一算,哎,来不及,我们必须要快速的实现对应的指标,然后给到产品经理。哎,那这里面这个及其查询工具我们怎么设计。大家往下。第六个需求,对集群性能进行一个监控,也就说你这集群里面有N多个组件,比如说有hi呀,啊有啊有有卡不卡,那这些组件如果任何一个组件的进程挂掉了,你能不能在第一时间内发现它,并采取强制措施?
04:14
对吧,哎,这是我们关注需要做的,我们这里面增加了相关的集群监控好。再一个原数据管理,原数据管理啊,是当前非常非常火的一个概念啊,也是一个新的需求。目前业界有这么一个需求,说呀,整个后台集群啊,我有1000多张表。突然间运行某一个任务的时候。挂了中间一个节点挂了,那他挂了它会未来影响哪些指标的分析呢。如果没有元数据管理。你是很难发现的,你得用人的肉眼一个一个去数。那这个工作量呢,太大了,那如果有了这个原数据管理,哎,通过这个图形化页面就能清楚的看到,哎,这几个任务受影响。
05:05
那我要评估一下风险。采取相应的措施,我是重考啊,啊,还是想办法怎么办?啊,OK,这是原数据管理啊,那再往下走。下面还有一个数据质量监控。那他又是干什么的呢?咱们说咱们统计了100多个指标,那么以日活。新增啊,留存转化率等等为例。假如这个日活呀,就是每一个用户来到网站,嗯,活跃的用户。他突然间增加的非常猛,比如说昨天是1万个日活,哎,1万个用户来到网站。今天呢,统计的结果呢,是1亿个用户。这说明发生什么?用户活跃瞬间猛增啊。有同学说这是好事啊是吧,这个公司老老老板这个,那这看到这个非非非常开心啊,那这也许你算错了呢。
06:02
明明不是1万。啊,明明不是一,你告诉老板是一个亿。那老板不疯了吗?是吧?啊,那不跳楼了吗?那还有一点,如果是1亿的日活,突然间你告诉老板。今天是1万的日货,老板你想不开跳楼了是吧?嗯,跳楼之后你告诉他老板醒醒啊,我算错了,那你觉得你还能这家公司活下去吗?是吧?哎,估计出门左转是吧,不送。所以说这个数据质量监控非常重要,我可以监控这个数仓当中任何一个指标的变化趋势是否超出了。合理的范围。通常在业界呢,30%。哎,任何一个指标超过30%,你就跟以往的数据相比的话,超过30%。哦,是干这个,同时这个数据质量监控,还能监控入藏当中空值,重复值,过期数据等等数据的一个质量监控,哎,非常强大,哎这呢也是业界当前非常火的,各个大厂都是才刚开始说你像这个原数据管理数据质量。
07:06
这一块新到什么程度,像这个京东对吧,也是最近这两三个月才开始做。啊,那你想一想,如果你把它学会了,你在业界这块至少是行业领先啊,那么再往下看。大家这个需求提完之后,我们思考几个问题,第一个问题,项目技术如何选型,需求我们是有了,对吧?我们要做这些事,那要实现这些功能,我们要用哪些框架来把它实现?比如说采集对吧,我们采集日志文件用什么。哎,我们采集这个MYSQL里的数据,我们用什么框架比较合适?这都是我们要思考的问题,那再往下,框架版本如何选型?比如说发行版,目前业界有阿帕奇CDH,还有对应的HTTP。那以你们公司目前的现状,你是选择阿帕奇格式呢?还是CD还是ATP?
08:00
需要我们去抉择一下,那再往下服务器呢,是使用物理机还是主机?对吧?买物理机有什么好处,买云主机又有什么好处,都需要我们去考虑再来。如何确定集群的规模?比如说我是买多少台服务器合适?你要根据你公司的数据量去评估,我是买五台,十台还是20台。哎,这是我们待解决的一些问题。
我来说两句