00:00
好了,同学们,那我们现在呢,已经把这个图形呢给大家画完了,那么就意味着呀,这个分析的过程其实我们已经有了啊,那接下来呢,我们准备呢,去写程序了,同学们,那我在这里呢,我们把这个该关的关掉了,然后呢我们打开啊嗯,打开以后呢,我们来写上,诶我想想可以啊,咱们写个零六,然后呢,我们叫做REQUIREMENT3,然后把这个呢,我们去掉,我们写上,咱们叫page flow。叫做页面的流转,对吧,一个我们的分析,所以咱们把这个拿过来点击OK,点击完成以后,把这个呢,我们给它放过来,然后呢,里面的这个东西啊,我想想XRDD,我们这个留着,因为我们的数据的来源就在这里,对不对,所以把这些东西啊,咱们都给它去掉,咱不要了啊,然后SC点我们的stop,诶就是这样好,那我们现在这么写完以后啊,每一回都要分解我们的这个什么我们的数据啊,分解那个字符串就感觉很不方便,所以我们怎么办呢?在我们之前,咱们给大家描述这个需求的时候,我们数据这边是有一个样例类可以让我们来使用的,所以我们完全可以干嘛呢?把这个拷贝,拷贝之后我放到咱们的这个位置啊,放到后面,那这样的话,我是有一个样例类的,那么你有样例类的话,我完全可以把咱们的数据呢给它,哎解析成样例类,这样的话咱们用起来方便啊同学们。
01:27
好,那我现在呢,试一试啊,咱们叫action r DD,点我们叫做什么呢?我们叫做map,这个map呢,我们写上啊,咱们来咱们叫action啊,然后呢,给它来一个,好,那我现在呢,把每一个都变成叫user visit action放过来以后,那你得分解呀,所以我们叫date是等于action,然后点我们叫做split,给他一个我们的下划线,下划线以后,那这里来了,咱们拷贝,拷贝以后给他一个零,然后写个逗号啊。
02:01
好,这里呢,我们来看看啊,这个地方我们确认一下,它总共应该是13个啊。好了,现在应该已经够了啊,然后呢,给他一个一,给他一个二,给个三啊,给个四给个五嗯六七,然后八九八十。好了啊,11,然后呢12,那这样的话总共是呢,是13个,它这个里面会发生错误啊,发生错误的原因是什么呢?就是因为类型不一样,它这里需要一个long类型的,所以to long,诶你这么写就可以了啊,然后把它放过来,放过来,放过来,然后放过来啊好,这样的话,我们的这个对象就有了,所以我们写上来,咱们写上啊咱们叫做什么呢?嗯,我们就叫做action啊,咱们叫date RD吧,嗯,好,那我这么写完以后,接下来我们想做什么事情呢?首先第一个。我这里其实是要分两步来完成的,为什么呢?因为分子和分母其实不一样,那我们首先第一个我们干嘛呢?写上todo,我们要计算我们的分母,哎,就是这样,哎,老师不对呀,按照咱们之前的分析,不应该先做这样的一些操作吗?其实啊,咱们的思路没有任何的问题,但是咱们回过头来想一想,同学们。
03:21
我们想一想,这个分母其实就是在统计页面当前被点击的数量吧,对不对,所以首先第一个啊,我们的页面我们得去统计一下,但是这个页面的统计我问你我需要考虑session吗?我只是想统计有页面的点击,我不用考虑你是谁嘛,我不用考虑哪个用户点了,只要点了是不是就可以,同样道理,我不考虑时间对不对,所以说你的这个处理方式啊,其实对于我来讲没有意义啊,你要先什么分组啊,先什么排序啊,没有意义,我们只是需要单独的把这个我们的什么页面统计一下,这就好比啊,就是个word count,对不对,所以那我们何必非得去整什么排序啊,分组不需要,那个是分子的事儿,所以啊,我们分两步来做,一个叫计算分母,一个叫计算分子,诶分两步来做,那么我们的计算分母就太简单了,你就看一看每个页面你的点击次数就可以了,所以大家看回来,我们把这个action date r DD,我们拿过来,拿过来以后点,点了以后干嘛呢,我们就直接map,诶map之后在我们当前的位置干嘛呀,我写个括号,诶写先写个咱们就action吧。
04:38
嗯。放过来,我就写上一个叫action,咱们点点了以后,它里面有一个什么呀,哎,咱们叫做page ID,哎,就是它就这个页面啊,我们点了一次,所以你这么写就行了,那么你这么写完以后,那是不是意味着点我们可以开始聚合了呢?所以我们叫reduce by key22聚合,这样的话就得到了我的结果,所以大家看一下这个呢,就是我们的结果啊,咱们写上叫page ID,嗯,咱们,诶咱们叫page ID to count啊这么一个东西,好了,把这个我们放到这里啊,放到这里,诶对了,正好呢,咱们这个其实啊,咱们这个配I to啊它。
05:24
现在没有结果,但你最后呢,其实你是分两步来执行的,他们两步应该是独立计算的,所以他既然是独立计算,那我是不是应该怎么办?诶,我应该把它们得到结果,所以呢,我这里点啊,咱们叫collect,嗯,采集,那么采集之后应该是我们的R。所以啊,咱们这边加上一个R就可以了啊,所以大家可以看到我们这样的话,分母其实就计算出来了,那它是一个独立的结果啊。
我来说两句