00:00
那我们来看一看,在当前的应用场景下,电商用户行为分析里边到底有哪些数据是我们能收集到的呢?哎,或者说我们现在面对的这个用户行为的数据到底有哪些,我们能用来做哪些分析判断,对吧?能做哪些统计呢?啊那首先我们想一下电商平台里边有哪些实体呢?哎,那其实主要那当然有些同学可能想到首先有这个平台对吧?有有有这个商家有平台,那但是这些东西呢,呃,用户直观的去产生行为数据其实是比较少的,或者说诶,我们可以把这个用户在平台上本身登录平台的这种行为,可以认为是用户自身的一些行为,对吧?啊所以这里边呢,我们主要能够产生关系的这些实体就是用户和商品,所以呢,用户的行为就分成了两大类,一类就是自己,比方说基于这个平台的啊。
01:00
自己自身的一些行为和一些行为习惯,那比方说这里就包括用户的一些登录方式,对吧?啊,你是基于这个呃,电脑端去登录,还是基于这个啊APP端对吧?你是基于这个苹果手机iOS还是这个安卓系统去登录,这些都是我们能够,呃就是我们这里都是能够收集起来的一些数据,用户的一行为数据,另外还有就是上线的时间点和时长,对吧?呃,你的用户一般他是白天登录还是晚上登录呢?是夜里登录啊,还是说我们这个,呃是这个周中登录还是这个周末登录呢?这些都是能统计出来的,另外就是一次登录它到底在线多长时间呢?啊,这些都是非常重要的一些用户行为数据啊,还可以有一些深层次的一些数据的挖掘出来,呃,就包括什么呢?页面停留多长时间对吧?呃,具体到某一个页面,它这个行为习惯啊,一般是停留多久,然后跳转的习惯啊,它是跳转到我们相关的一些链接里面去呢,还是自己做搜索去。
02:00
做做一些对应的跳转的啊,这些其实都是可以去判断出来的,那另外还有一些就是跟商品相关的一些操作,那大大家看到这个跟商品相关的一些呢,又分成两类,一类是跟业务相关的,就是我当前哎就是点了一个商品对吧,然后浏览看它的内容,然后做了一个购买,做了一个这个支付,那整个这个我们电商网站吧,需要的就是卖东西卖商品,那用户呢,他去看一个商品,然后下单购买,这就是我们标准的这个业务流程,就是真正要产生效益收益的这个业务流程,那另外还有一类呢,用户可能不去做购买,哎,但是呢,他可能会去收藏一个商品,对吧?哎,他可能会去加入购物车对吧,他可能会喜欢有一些这个网站上有一个like,这样的一个行为,对吧?去给他点一个like,呃,做一个收藏,加入购物车,或者还可以给他做一个评分,写一个评价,对吧,呃,或者。
03:00
还可以给他打个标签,那这些用户行为也是属于用户跟商品之间发生的一个关联,只不过它不是业务行为就直接去购买,而是表达了用户对商品的一个兴趣,或者说一个评价和一个这个就是一个一个评论性的东西,对吧?啊有这样的一个判断,所以大家看我们把这些数据通通都可以收集起来,那收集起来能用来做什么事呢?整体来看的话,可以做这样的三类分析,那首先第一类就是统计分析,这类也是最常见的了啊,我们平常呃,大家可能平常这个用大数据工具啊,去进行这个一些指标,一些需求实现的时候,往往都是写CQ嘛,那大家写CQ主要是干什么呢?当然就是做统计分析了啊,这里边我们最常用到的数据是什么呢?因为大数据分析嘛,最常用到的其实就是用户的点击浏览行为,因为这个数据往往是数据量最大,而且没有规律对吧,而且连续不断要发生,它是最符合我们当前的这个这种处理场景的需求的,那当然了,统统计分析里边我也可以去统计用户的下单行为,对吧?呃,也可以统计用户的这个登录行为,但是呢,这些行为往往就会比较少,因为大家想你说一个用户,他一天的那个点击浏览可能会非常非常大,对吧,你像电商网站的话。
04:29
像这个呃,淘宝或者说像这个京东啊,拼多多这样的一些大平台,它用户一天的那个浏览量访问量是可能是非常量级是非常非常高的啊,就上亿次,甚至这个十几亿几十亿次的这样的一个浏览量啊,那至于这个用户的登录和下单的数量呢,可能就会比这个少一点啊,那当然也不排除比方说像我们在这个呃,类似于购物节啊,双11这样的一个场景下,可能用户的订单量也非常大,对吧?所以说有一些场景,其实别的统计分析也是会用到这个大数据的处理这种应用的啊,所以大家就会看到了,我们一般可以统计哪些呢?这个就非常多了啊,最常见的就是热门商品对吧?呃,或者说热门商品还可以分类热门商品啊,近期的热类商品,呃,热门商品啊啊,另外还可以统计这个流量对吧啊PVUV啊,我们每天的日活月活啊,这些都可以去做。
05:30
对应的一些指标统计,另外呢,当然我们还可以去统计啊,订单量啊,成交金额啊,对吧?呃,用户这个当然用户登录的这个数量,我们有时候就拿它来统计这个日活了,对吧?有时候这个看日活的定义,有些可能你对日活的定义是说呃,用户去要要在线时长达到一定的程度,有些可能就是只要登录,我认为就是贡献了一次日活啊,所以这个就看呃我们具体的一些定义了,所有大家熟悉的这些统计指标都可以去做分析,对吧,只要你能拿到对应的那些用户行为数据啊啊,那关于这个统计分析这一这一部分,这可能是大家最为熟悉,也是最常见的这一类指标,我们之前接触过的可能基本上都是这类指标,那现在呢,是要给大家再讲一讲,还用户行为数据,如果我们收集到之后还能用来干什么呢?哎,这里边有一类数据,大家大家其实发现了啊,比方说前面我们看到的这个收藏啊,喜欢啊,屏。
06:30
增啊,打标签啊,这一类数据,它其实可以代表用户对于商品的一个兴趣程度,或者说他的一个评价,对吧?那在这种情况下,其实是可以代表用户的一个偏好,所以呢,我们可以用它来做一个偏好统计,那这个偏好统计收集用户的偏好主要又是用来干什么呢?诶这里边就是涉及到我可以对用户去做画像,对吧?我可以根据他的偏好去进行推测,看出来这个用户,诶这个用户到底应该是男是女呢,他到底应该是一个是一个学生党还是已经工作了呢?他的消费能力到底是,呃,能能能够买多贵的这个呃东西呢,商品呢,或者说哎,这个用户大家会想到啊,这个用户画像里面一个非常重要的概念是什么?所谓用户画像,其实就是给用户贴标签,打标签就是用户信息的标签化,就是用户画像,那所以还有一些特殊的这个。
07:30
标签你都可以给他定义,比方说我可以定义,假如说啊,这个用户就喜欢冲动购物对吧,就是他一旦不上线则已啊,一上线这个,或者到购物节的时候,他那个就是买买买买不停对吧,一上线就就就不停的要要买买买买好多东西,那我可以给他打一个标签叫剁手党对吧?啊,这完全是可以有这样的一个类似于特别的这种标签定义的,那或者说有一些用户我去统计他,他上线的这个时间点就往往都是半夜啊,都是夜里边两三点,那我给他定义一个标签叫夜猫子啊,这完全是可以的是吧?这就看我们具体的业务场景去做啊这些具体的定义,那当然了,其实本身这个用户画像呢,大家会想到你,你做了这个用户画像之后,它有什么用呢?哎,一类主要的用途就是说我可以给用户分类嘛,对吧,分类之后呢,我就可以针对不同有不同标签的这个用户去给他做定定点的精准的一。
08:30
的推送,一些信息的推送,比方说这个,诶我群发短信对吧,或者呃呃,就是直接给用户在这个APP上面啊,或者说网站上面直接给他推送消息,那就是说诶给他做一些提醒对吧?哎,比方说你现在有一些你可能感兴趣的东西啊,有可能我们现在做什么活动啊,哎,把这个对应的这种东西给他推送过去,做一个精准营销,那更加常见或者说更加有用的一个用途是干什么呢?啊,就是基于用户画像,或者说我们就根本不基于用户画像对吧?你直接定义一些算法去做一个推荐列表,做一个精准的推荐啊,这就涉及到一些具体的比方说特特征工程啊,啊,或者说涉及到一些机机器学习的算法,涉及到推荐算法的一个问题了啊,所以这一部分,其实这是又一大领域啊,就是我们收集用户数据可以做这么多的事情啊,那有些情况下,你如果收集不到用户这么多。
09:30
行为数据的话,即使是基于这个用户的点击,光是有这个点击数据,其实也也是可以推测出很多东西的,对吧,比方说这个我就把用户点过的那些商品,我认为这是他喜欢的商品,对吧?啊,这也可以表示他的一个偏好统计啊,所以这里边其实呃可以有各种各样的这种定义的模式,这个是比较呃就比较深入的一个话题啊,那另外还有一个一类就是我们所说的风控,风险控制,那这一部分主要是针对什么呢?比方说像哎这个用户下订单支付的这个环节,这是涉及到业务流程里边的核心,对吧,真金白银真的要有交易的时候,另外还有一个就是用户登录,对吧,涉及到用户的账户安全,在这种场景下,比方说有些有些时候啊,大家可能会想到我们检测出来,用户可能下单行为有异常,它出现了刷单对吧,那或者说另外有些时候就是可能我们要检测诶这个。
10:30
订单可能就失效了,对吧,过一段时间这个订单应该自动失效,还有一些就是短时间内可能一个用户他的那个账号在不停的被登录,而且登录都是失败的,这是不是就相当于呃,有人在恶意攻击呢,对吧?所有的这些行为我们可以把它检测出来,做一个风险控制,做一个报警提示,那大家可能会想到这一部分我可以用这个业务系统直接去处理啊,啊当然是可以的,就传统来讲的话,因为这个订单操作和这个登录操作都比较重啊,本身数据量没那么大,可能往往我们在业务系统里边啊,你多加一个逻辑,对吧,做一个筛选,做一个判断,然后去数据库里面拿数据,把它这个处理完了做报警就可以了,但是其实大家会发现啊,一来就是这个数据量如果太大的话,那其实业务数据库这这个压力就会比较大了,对吧,这个做做处理就压力比较大,另外大家会发现这个其实它跟我们的这个业务流程相关。
11:30
但是其实呢,它又不是业务的核心流程对吧,我们要检测的是你是否出现异常啊,拼命的刷单,但是我们业务流程里边,这只是一个下单行为而已啊,呃,下单了之后我就等他支付嘛,我我只是没有出现我想要预期的某种行为,他他出现了一个好像有可能有问题的行为而已,这完全可以单独的把它抽出来,对吧,跟我们的业务系统做一个剥离啊,所以这里边大数据啊,有一个应用方向,就是说我可以把它用大数据处理框架,把这些行为全提取出来,做一个监控啊,所以说这里边就就有问题了,那大家就是说这里面我们要做的这些三种应用方向啊,到底哪些适用于用flink用用我们当前的这个实时处理流处理的框架去做去做分析呢?啊,那这里边我们当然就要看到底谁的这个数据是连续不断来,然后呃。
12:30
而且我们要实施性又比较高对吧?啊,当然这里边我们用户行为的数据都是源源不断来的,然后我们这里边就要就要看了,到底谁的对于这个实性的要求比较高呢?诶我们就看到统计分析这里边我们这个热门统计,流量统计,当然你可以隔一段时间再出一个报表,对吧,再出一个统计结论,但是假如说我现在能够实时非常的得到这个结论,难道不更好吗?哎,这个是完全没有问题的,对吧?哎,所以这个是完全可以用作这个流失处理的啊,我们这里边可以把它作为流失处理应用的一个非常重要的领域,那另外还有一个是什么呢?诶大家看到偏好统一这一部分,你要做用户画像做推荐,当然推荐也可以有实时推荐,对吧?但是你做用户画像的话,你说难道用户多了一个点击用户当前这个画像,就整个他的这个很多判断都已经改了吗?不会的,对吧,我做这个用户画像,首先是不是就应该要基于。
13:30
与大量的数据收集啊,对吧,首先我就得有大量数据来了之后,这个用户才能给他做一个画像推测嘛,才能做一个判断嘛,打上对应的标签嘛,所以这里边其实是需要收集大量数据去做一个离线分析更合适一点,对吧?啊,当然这个推荐列表的话,有些场景我们可能做实时推荐,对吧,你点了一个一个商品,我马上就给你推,推荐相似的东西出来,就像我们这个现在大家看短视频啊,视频平台也是有这样的处理的,直接推荐啊,这个是有这样应用的,但是这里边呢,我们就哎不给大家做这个,这里边就不给大家做完整的介绍了,因为还涉及到更多的内容,对吧?呃,你可能要讲这个机器学习算法呀,讲用户画像到底去怎么处理啊啊,这个特征工程怎么做啊,所以这一部分我们会发现它的实时性要求也没那么高,而且呢,需要的数据量可能会比较大啊,所以可能我们在做这个流失处理啊弗Li流失。
14:30
处理里边可以啊,这里边我们就把它先排除掉,那另外还有一个风控,风控大家想一想,这个是不是要求要求的实时性会非常非常高啊,对吧,甚至不是说统计分析里边,哎,我我做成实时的,本来它是离线的啊,你做成实时的更好,我希望把这些指标都做成实时的,我这里边这个风控是你必须实时,你如果要是不实时的话,我这已经就没有意义了,对吧?你当前这个报警,你过了几个小时之后再报警,那我能真正做的这个快速响应的黄金时段已经过去了,这其实做对于风控而言就已经失去它最大的意义了,对吧?所以大家看到我们做这个实时的统计分析和实时的风险控制这两部分是我们接下来用flink流式计算去做分析的一个核心啊,所以接下来我们就具体给大家讲怎么去分析这部分内容。
我来说两句