00:00
啊,那么其实日活呀,咱们这个需求呢,我在前面呢,给大家讲过对吧,就让大家先啊这个有一个短这个整体的认识对吧?那么咱们现在呢,把这需求啊,算是再给大家复习一下对吧?那么我们现在呢,什么叫做我们日活,其实日活呢,统计的是咱们当天,然后呢,用户首次登录我们现在这个系统对吧?它的一个分时趋势图,注意啊,那么咱们当天,那你想一想,我在统计的时候,咱们这个信息里边是不是得包含天呀,然后呢,咱们现在分时趋势图,那我在统计的时候,那我这里是不是得包含咱们现在这个小时啊,对吧?那么另外一个咱们现在呢这个日活对吧?那么这个数据它呢,靠的什么?靠的是从用户的登录的它的一个数据里边,日志里边来获取,所以说呢,那你应该从这里分析到,我们应该从我们那个卡夫卡中。
01:00
啊,那么应该从它的启动日之中来获取数据吧,对,咱们现在卡卡里面数有数据了,注意啊,前两天做的那个东西采集数据不让他坐着玩了,对咱们把这是采集完之后,我是不是得用啊,咱们当前卡卡里边那么有两个主题对吧,一个呢是什么寂贸,然后start对吧?然后一个是寂帽,然后什么疑问的对吧?那么我现在大里面是不是放在启动日志啊,对吧?那么你要从咱们这个启日志里边对吧?诶来查询咱们用户的一个登录信息,那么而且大家想一想,在咱们这个登录的时候呀,你说我现在是按照用户来进行统计之活呢,还是按照设备来统计呢?三。我现在你们原你们原来统计过吗?咱们本身在启动的时候,对吧,那么咱们现在这里你按照什么来统计呢?是不按照设备呀,设备设有什么叫mid的对吧?所以说呢,在咱们这里我应该取的是我们这个设备它的一个ID对吧,我现在怎么是设备ID,说老师他为啥不能不爱用户啊对吧,因为我一般呢,在浏览一些八卦新闻的时候,我从来不登录对吧,咱们现在你想想你们看一些东西的时候,对吧,你不是说都登录着你看吧,对吧,设备是吧,其实啊一样同学们短就你们觉得是我不登录,那好像就没啥事了,是不是,其实一样的啊,其实一样的是吧,所以说呢,但是咱们现在短期为了防止有些人是吧,明明访问我的网站呢,但是还想做的不留痕迹,对吧,这是不可能的对吧,这是不可能的对吧,哎,就是骗着自己是吧,但是我在统计的时候,我不能说吧,对吧,把这个没有这个登录的是吧,我得给他什么拿过来,对我得把这个什么吧,只要是你的设备访问过了对吧,这个都行啊这个都行对吧,好了那么接下来。
02:43
对,咱们除了这个之外呢,对吧,我知道要统计我们这个对吧,M mid,那么接下来咱们大概啊,我知道要做什么了,那么最终展示的效果什么样的,展示效果是这样的啊统计完之后把这个数据啊保存到我们ES中啊统计之后把这数据呢保存ES里边,然后最终呢,通过品判呢来做展示啊从过品牌呢来做展示,对吧?其实我们现在呢,除了做展示之外呢,我还发布了一个查询接口,对吧?到时候呢,咱们自己有一个我们展示或者可视化平台来做展示一下,这个东西呢,是咱们自己对吧,他的可视化平台对吧?好了,那咱们现在如果想去实现的话呢,那大概的一个实现思路什么样的,把整个的需求呢,我们分这么四个功能点,大家在做的时候呢,也是一个功能点一个功点去做,首先啊,那目前咱们数据已经到卡普卡了,对吧?那么我要想统计日活,那么是不是应该去从卡夫卡里把数据给他拿出来对吧?所以说第一件事呢,咱们应该去从卡夫卡中对吧?来去读取数据,而且。
03:43
对,咱们这个网站如果你正常运行,那么用户呢,他的登录信息那应该是源源不断的,对于说啊,随时随地都有用户呢,去访问你的网站对吧?那么都会把咱们用户他的一个登录行为记录到咱们卡不卡的主题里边,对吧?那也就是我需要对源源不断数据呢来进行处理,那这应该是一个实时操作对吧?那么如果实时操作的话,那么咱们通过谁来消费卡法数据的,那我们选型那应该是Spark streaming,就现在谈不上选型对吧?就目前我们对实时这个进行处理只能是SPA streaming,对吧?然后接下来那么你现在把它消费完之后呢,也说通过SPA streaming啊,也可以从卡普卡里边把数据拿到了,那么拿到之后呢,那么这里有可能啊,我拿的数据是一个用户对他登录多次的情况,那所以说呢,这个时候我需要对我们这个啊,这个用户他的一个首,这个首次登录的来进行一个记录,对把咱们除了首次登录的其他登录信息给他过滤掉,对也就是说对一个用户的多。
04:43
访温呢,来做一个去虫,那么这个去虫呢,咱们有多种方式,对吧?因为你想你要保存用户状态嘛,对吧,保存状态你可以利用我们的一个SPA streaming,它本身我提供保存状态算子,比如说update state bank,对吧,你可以把咱们现在状态呢保存到关系数据库里边,对吧,你可以把这个状态保存re里边,那么这个咱们分析过,那么如果up back key呢,它一个是操作起来啊比较麻烦,那么另外一个它这个数据呢,是保存在我们t po中的,那么有一些小文件,那么我们现在呢,如果保存关于数据库的话,那么这个日志呢,对吧,如果访问量比较大的话,那么对关于数据库的操作呢,又过于频繁,所以说我现在想找一个效率高一点的这样的一个存储介质,我们选择RA啊,我们现在呢选择red对吧,来完成我们现在去除操作,然后具体ready什么选型,咱们呢,做到这时候再说,然后接下来那么第三个对吧,那我现在呢去完重了,那么这个时候相当于做了一次数据清。
05:43
洗,那么如我清洗之后的数据啊,量比较小,那么咱们可以直接保存到关心数据库里边来做一些操作,如果说我清洗之后的数据量比较大的话,那么这个时候呢,诶,我应该把它保存到一些对吧,处理能力比较强的这个数据库里边,其实是一个oledp平台,对吧?那我要对它呢,再做一些我分析,然后做展示,那我们选择的是这种方式对吧?那我们使用的是以来search试,也就是说把咱们当前从卡夫卡里边读到的啊这个用户他的一个我们这个活,这个日活信息对吧?放在哪呢?放到elect search里边,对吧,来进行存储对吧,来进行存储对吧,然后最后呢,从ES中对咱们把这个数据给查出来对吧,然后发布成接口,然后进行一个可视化展示,对吧,你可以直接去班纳也可以直接呢,对吧,用我们这个对吧,这个发布接口,然后呢,让专门的一个对可视化工程去调的啊去调的好,这是关于我们现在呢,它的一个实现思路,对具体怎么。
06:43
怎么实现,稍微听一下啊。
我来说两句