00:00
好,那接下来呢,我们看第四张宽表,叫这个关键词主题表。我们为的是最后的这个。结果呢,ADS层对吧,最终呢,我们在页面上能展示出来这样的东西啊,热度关键词。热度关键词,也就是说对于这个单词啊,也不是单词吧,就是搜索的关键词,不word count,相当于也是统计一个count值,然后展示出来,把高频的介词啊展示出来。是吧,啊就这个意思啊,但是呢,这个时候经常在页面当中我们要输一些这个关键词啊,所以呢,明显的我们要对这个关键词做一个切分。啊,要对关键词做一个切分啊,所以这里面呢,很明显我们要用到什么东西了,大家想一想。就是我搜索的啊,上硅谷大数据对吧,什么实时数仓,假如说我搜索的关键词是这个,但是你要拆开拆成什么上硅谷大数据数据。
01:04
对吧,实时数仓是不是要拆成这样的内容啊,那这里边儿我们明显要做什么事了呀。啊,有同学说要用ES来做。模糊查询。模糊查询怎么能是模糊查询呢,看最终我们这个地方啊,你看这个地方。这个地方是口红华为金沙什么硅谷。对吧,最后我们要做词频统计,我们说要切词啊,像副总说的这个ES还沾点边对吧?啊,还记得在ES当中呢,它有这个切词。啊,它有这个切词对吧?啊,那很明显,那但是呢,我们搜索的关键词啊,我给大家看一下这个地方。IK分词,对啊,就是重要的呢,要做一个分词,对啊,CD的log克斯里边为什么要做分词呢?大家看一下啊。
02:08
嗯,那这边T-20,我们看最后20行,看里面有没有啊。V v log。嗯,往上翻一翻。这这搜索的关键词,这个搜索了一个电视对吧。嗯,那这个电视还不太好,那这样吧,我给大家这样看啊。这边呢,我们其实有的cat。点看到没有,就是说这个是候我们搜索的是自己造的数据啊,它是这里边去造这个搜索的关键词的啊好,那这边呢,有这个苹果手机,那就会拆成苹果和手机两个词,然后呢,苹果统计一次,手机统计一次,对吧?有同学说了IK分词,其实这个里边呢,在S里边体现的,我们要用什么呢?要用到这个炸列函数吧。
03:01
要用到炸裂函数对不对啊,UDTF,因为我们搜索的关键词肯定在。一行数据里边,所以我们要炸裂,那这地方呢,炸裂有同学又提到了用ES,用IK分词,所以此时这个需求呢,最重要的一个点在里边,我们要实现一个自定义的UDTF函数,我们要自己写一个这个炸裂函数啊,而且呢,这个自己写的炸裂函数里边得有这个IK分子器啊,那我们不能直接用ES呀,对吧,因为我们说了。咱们是要存到这个科号里边的。存到克雷号里边的,也就是说我们要把词拆开之后,统计结果按十秒一统计,十秒一统计写出去,对吧,要做这个事情,所以呢,这个里边的一个分词器,我们要自己写代码了啊,我们要自己写代码啊,这个意思对吧?啊,这个需求呢,最重要的点在这啊,那另外的就是跟上午我们那个需求一样了,我们只要把这个自定义的这个内容搞定,那无非就是说。
04:01
关于事件时间的提取和关于开窗操作怎么用对吧,那无非就这几个这个东西上,其他的都没有什么了。对吧,啊,其他没有什么了,其实这里面最重要的跟上面一个区别就在于这好,这是我们所看到这样的一个东西啊,呃,那前面那是我们的一个需求分析啊。
我来说两句