00:00
讲到了,我们既然回顾了一下批处理跟流处理的特点,那现在就来带来了另外一个问题,我们现现在要做的是电商用户行为数据的分析,那我们到底应该用批处理呢,还是用流处理呢?这就相当于我们有一个架构选型的问题了,到底要用什么?那在处理解决这个问题之前,大家会想到我首先是不是得知道具体我要做哪些分析,对吧?那你说是要做用户行为数据分析,那你到底要干什么呢?我得总得知道你具体干的操作,具体的逻辑,我才可以去判断,呃,就当前我到底用哪一种好,对吧?我才可以判断当前我的这个,呃,当前的需求用什么实现更合理?所以接下来我们首先要给大家分析一下。电商的用户行为到底有哪些?首先我们来想电商的这个平台上面啊,主要的能够生成数据的实体有哪些?那大家想就是,呃,有这个数据描述的实体,那其实主要当然就是用户了,用户本身他就有很多信息,对吧?啊,用户就自己注册啊,有很多信息,账户有很多信息,另外呢,他有很多行为啊,所以我们现在主要考察的就是他的行为数据,那另外呢,还有一部分实体就是商品对吧?啊,就是用户跟商品之间,商品本身是有很多信息的,而用户的行为呢,是不是有很多都要跟商品发生关联啊,诶所以这里边我们考虑用户行为的时候,需要把商品这个实体也列出来。
01:33
当然另外可能还涉及到一些,比方说有商家,但是一般在电商平台里边,用户跟商家直接的这种行为操作可能会比较少,因为可能他跟商家要联系的话,那个数据我们也拿不到,对吧?呃,可能基于什么阿里旺旺之类的啊,一些聊天工具去做一些联系,我们这里面统计数据的时候,其实是统计不到的,那我们能统计到的是什么样的数据呢?哎,大家就看到了,按照这样的一个实体的关系,我们其实可以发现用户行为主体可以分成两类。
02:05
一类就是它跟商品之间的交互,比方说大家看我是不是用户可以点击点一个商品,浏览一次商品,对吧?啊,这是一个行为,我可以收集到另外用户购买的一个商品啊,下了一个单啊,这可以收集到。另外还有就是呃,这里是把购买支付直接都分开了,因为大家想我下订单是不是有可能最后不支付啊,呃,所以这些都是可以分开收集到的一些行为啊。另外还有就是比方说我可以加入购物车,相当于一个收藏操作。可以有一个比方说,有一些平台上可能有一个一个星标打芯对吧,或者是有一个like啊,类似于这样的一个操作,可以有一个喜欢的操作,呃,另外还有就是我可以给他打打评,打评分对吧,给这个商品给一个分数,或者说可以给他写评价,另外还可以打标签,这些都是用户对于商品的一个行为操作。那除了这个之外呢,另外是不是还涉及到就是用户自己,他在平台上本身就会产生一些行为啊,比方说用户哎,他的登录方式,他是习惯用网页版登录呢,还是说习惯用这个手机客户端登录呢?啊对吧,APPAPP端去登录呢,那APP登录的话,他到底这当前的这个环境我们也可以判断出来吗?它是这个苹果机器iOS环境呢,还是安卓系统呢?啊这个都可以判断出来。
03:25
另外还有比方说像这个上线的时间点和时长,哎,这用户他是不是往往都是这个,呃,就是我们我们是这个。白天的上班时间去去这个上线呢,还是说平常我们认为的这个下班时间,还是说每天的夜里边才去上线呢,啊这这些其实都是有区别的,还有一些就是像这个用户的一些行为,就是这个就比较复杂一点了啊,就它的停留和跳转的规律,对吧,我们可以统计诶,它往往是在一个页面上停留多长时间,然后跳到下一个这个,呃,下一个页面去呢,或者说它这个跳转的这个规律,它是它是乱跳还是说呃有有联系的啊,就是下一页下一页这样的好像是挨着的这个对应的这些页面,它它一个一个浏览的这些行为其实都可以统计出来。
04:11
那接下来我们的问题就是说,基于这些数据,我们能干什么事呢?到底想要知道什么呢?啊,其实大家会想到,首先我们收集这个数据收集起来之后啊,大家看到对于用户他自己在平台上的一些行为,我们往往就把这个叫程行为习惯对吧。他从某种意义上来讲,是不是就可以用来表示用户自己的一些特征啊。啊,所以在这种场景下,我们往往就是说可以基于这些给用户去打一些标签,对吧,那就给用户贴上一些标签,判断它的一些特征,然后另外呢,呃,用户跟商品之间的这些关联呢,它是不是又首先我们最起码能做的事情,是不是可以统计当前平台上的一些统计数据啊,生成一些报表,对吧?诶比方说当前有多少用户浏览这个商品,或者说这一个用户他一天当中要浏览多少商品,对吧?这些都可以去做做统计,或者我可以统计当前。
05:16
整个平台的,或者说每一类商品的销售值对吧?啊,订单数量,或者说每一个商家对应的那个销售额,这些都可以统计出来,这是基本的一些统计数据。那另外用户对于商品的一些行为,是不是也可以判断出用户的一些偏好习惯啊,那比方说他就特别喜欢某一类商品啊,各比方说他喜欢这个电子产品,那是不是就相当于各种电脑ipad对吧?啊手机平板啊,就是各种这个电子相关的一些产品,他他全有收藏,全有喜欢对吧?诶那所以这相当于就代表了他的一个偏好。啊,所以后续我们是不是可以基于这些偏好,基于用户的一些行为习惯的分析,是不是可以对他做做推荐啊,啊所以这些都是常规的一些应用啊,根据他的这个用户行为,只要我们能提取出来,接下来就能做进一步的操作,所以接下来给大家把这些用户的行为数据,能做的事情做一个分类。
06:18
主要其实就是能做这么三类事情啊。一类最常见的,也是最简单的就是统计分析,大家想这个呃,最最常见的是不是就相当于我可以统计各种各样的指标啊啊,比方说呃,这个当前的热门商品对吧?整个平台上热门商品或者说这就可以细分了啊,近期的热门商品,分类的热门商品,这都可以放在这一类里面,另外我还可以统计当前整个平台的流量对吧?像PPUUV是不是也都可以统计啊啊另外还有就是你像有一些这个相关的一些参数啊,日活月活诶是不是都是这一类统计统计数据啊,还有我们的销量数据对吧?统计当前我们的订单数量,还有总总共的那个销售额,都可以根据这个来做一个统计,那基于的数据当然就是我们收集起来的用户针对。
07:09
商品的一些行为了,比方说点击点击浏览行为,是不是就可以代表当前商商品的一个热门度啊,呃,也可以代表当前的一个流量,对不对?呃,根据这个点击点击浏览行为其实可以做很多事情啊,那另外假如说你要统计当前的这个销售销售额,销售量量的话,那肯定你就得统计这个订单和这个支付的数据了,对吧,就得把那些数据收集起来啊。当然有同学可能会想到,我们平常做这个计分析的时候,往往用到的数据是什么呢?就是这个点击浏览数据,因为大部分的那个商家平台,可能他的那个订单量和那个支付的那个数据,相对来讲数据量没那么大,对吧。啊,所以一般情况那个呃,我们在业务系统里边就直接可以把它搞定啊,那你如果说想放在大数据处理平台里边呢,也是可以的,这都没问题,最终我们是不是就可以生成一些统计报表,做一些展示,或者说呃,就是比方说呃,做一些这个相对应的那些分析判断,然后市场部门对吧,或者说营销部门他就可以做一些销售策略的调整调整了,对吧?啊,这就是一些最常规的分析的方向啊,那另外除了这个统计分析之外呢,我们还能干什么?
08:28
另外一大类就是所谓的偏好统计,正是前面说的,我们可以根据用户的行为是不是可以判断出来他对哪些商品感兴趣啊。然后另外我还可以通过用户自己在平台上的一些行为习惯,什么时候上线,哎,什么时候,呃,比方说这个点点击这个页面,然后这个在页面上停留,要停留多久,根据他的这些行为习惯,是不是都可以推测出他的一些偏好,喜欢的东西啊。然后我可以定义一些关联规则,是不是就可以给他做一些推荐了啊,那所以这里面涉及到的一个应用就是首先是一个用户画像,用户画像现在其实提的也比较多啊,所谓用户画像是什么呢?就是所谓的用户信息标签化。
09:15
就你想我这里面一个用户,他喜欢干什么事儿,喜欢哪个商品,这相当于也是他的一个标签,对不对,我可以提炼出来一个标签对吧,比方说啊,他这个是一个电子产品发烧发烧友对吧?啊,就喜欢电子产品,那当然这也是一个标签啊。然后比方说嗯,我们还可以提取什么,他的这个上线行为习惯,我们发现这个用户他往往上线都是半夜,半夜两三点钟上线,对吧?哎,那比方说我就给他一个标签叫夜猫子。啊,所以给了这个标签的话,大家想到是不是接下来有了这个用户画像,我知道他是一个什么样的人,后续是不是就可以给他做一些相关的推荐啊,呃,你比方说如果说一个用户是这个电子产品发发发烧友的话,呃,那往往有一个新款电子产品出现,他新款手机出来,他会感兴趣,对吧,那我就推给他,这个是相关的类似的产品直接做的推荐,那如果要是我是不是还可以基于一些关联规则啊,比方说我,我可以定义当前他如果他是一个电子产品的爱好者,发烧友,另外他还对这个,另外他还是夜猫子对吧,总不睡觉,诶那比方说我,我就觉得他可能对一些这个晚上玩的电动玩具比较感兴趣,哎,那那我就推荐给他对吧?哎,那那这这个当然就是看大家具体定义的这个规则了,是吧?啊这个就就是可以去做一些更加复杂的分析,这里边可能会涉及到一些特征工程和机器学习相关的算法,对吧,你说它的这个规律到底怎么。
10:43
找呢,那是不是这个找规律的过程,你可以自己去定义对吧,我说你符合这个规则,我就给你推荐什么,但是更好的方式是不是可以从大量的数据里边去让机器做一个学习啊,他找到这个规律发现,诶你你喜欢这些有这些标签的人,他就呃,他可能给推荐出这些东西来之后,效果就最好,对吧,他下单的概率就更高,诶那可能就做这样的一个应用。
11:08
所以这个现在是对于这个用户行为分析啊,呃,这个很广泛的一个应用,而且在很多大厂里边,用户画像和推荐列表也已经是已经做的非常成规模了,而且已经是产生真金白银的收益了,呃但是到现在你上一个电商网,电商网站啊,或者说上其他的网站也都一样,对吧,你像这个短视频网站啊,上来之后是不是各种都是推荐,推荐出来的一些呃内容啊对吧?呃,而且就是说你像这个他呃电商网站那个猜你喜欢,有时候往往还猜的挺准,有时候你就觉得,诶,那最近就是这就是我感兴趣的东西啊,说明他现在收集我们,当然一方面是我们现在用户数据这个,呃,就是大家对隐私性呃关注的不多,对吧,用户数据泄露的比较多,但另外一方面就是他的算法也说明非趁对吧,只要给我足够的数据,我就能判断出来你是个什么样的人,你就对什么东西感兴趣,去做推荐啊,这是当前另外一个非常也是非常火热,非常前沿的一个应用场景啊。
12:08
然后另外还有一个应用场景,就是所谓的风险控制,大家想到这就涉及到什么呢?呃,我们在有一些环节里边,是不是对于当前的这一个业务处理的流程,对他的这个安全性要求是非常高的呀,比方说用户的登录,那关关系到用户的账户,账户安全对吧?呃,或者说涉及到这个订单支付的环节的时候,这是真金白银要产生钱的这个环节,我们可能都需要去做一个监控,对吧?比方说这里边呃有人在刷单,大大家想是不是这个刷单行为我觉得不正常的话,是需要做一个监控报警的呀,或者说呃,当然这个例子是我们后面要讲的一个例子啊,就是订单隔一段时间之后,是不是应该有一个失效啊,对吧,你不能说无限等下去嘛,用户的这个订单隔一段时间你不支付的话,就应该直接失效了啊,还有就是说,比方说恶意登录,你如果短时间内频繁的登录,而且还都登录失败的话,那是不是相当于是被攻击了,诶所以我要把这种。
13:08
异常的行为检测出来,随时做一个报警。大家会想到,对于这个风控类指标,传统来讲的话,如果想做这个控制,是不是都得在业务系统里边做这件事儿啊,诶所以因为它跟业务业务行为强相关对吧?诶所以但是大家想这个在业务系统里面做这个事儿的话,他跟我们的核心业务有关系吗。是有关系对吧,你比方说这个刷单,它确实跟下单这个行为核心业务有关系啊,但是你说我们正常的处理流程是不是你下单你就下就完了嘛,对吧,下完了之后你就正常支付,不支付的话,诶我就我就放在那儿,然后到时间可能就取消,对吧?啊就是这样一个流程,那用户他下很多单是不是并不影响到我们正常的这个处理流程啊,我们只是认为这个行为可能有额外的风险,想要把它做一个额外的检测,对不对,那那你比方说这个恶意登录啊,短时间内连续登录失败,那你想他登录失败,我不让他登录,不让他这个创,创建这个会话去去登录做操作不就完了吗?
14:11
但是大家会想到这个时候可能是有人在做这个攻击,所以我需要去做一个检测,做一个提醒,对不对啊,基于这个用户安全的安安全的考虑,所以大家会发现它其实跟业务强相关,但是跟我们的核心业务处理流程是不是可以剥离开啊。可以单独去做检测对不对,哎,这是其一,然后另外一方面就是大家想到,如果说当前的这个量特别大的话。传统业务的话,可能你说刷单它它也刷不了太多,对吧?啊,就是那个数据量还是有限的,你像登录呃,恶意登录短时间内它可能那个啊,确实有可能导致这个DDOS攻击啊,就导致我们那个呃响应的那个请求会特别多,这个是有可能的,但是一般情况我们这个量好像也也不会太大。
15:00
但是大家想,现在我们很多电商平台是不是这个日活数据特别大呀,用户特别特别多,对吧,你像这个双11,特别是购物节什么的时候,那个订单量那可是非常量的,在这种海量的数据里边,你又要想检测到,随时的检测到它里边一些异常的行为。这是不是对于我们传统数据库来讲,那个关系性数据库,你做这个查询对吧,连表查询再去做这个判断处理,这个压力就太大了,对吧,对系系统性能的影响就会比较大,所以我们现在也可以把这一部分内容放在大数据处理平台里面去做。这就是我们当前电商用户行为可以做的一些分析操作。
我来说两句