温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,我们了解完基础的方法之后呢,接下来我们就来通过一个实际的案例啊来去呢,介绍一下具体的一个设计。呃,我们这个案例呢,是这样的啊,使用h base存储这个T文本里面的数据,要求呢,能够通过h base的API读取这里面的数据,完成两个统计需求啊,当然呢,呃,它有一种简单的方法,就是你单纯的把这个数据全都存到你的h base里面,存成一个表格嘛,就存成MYSQL的这种形式,然后你在读取的时候呢,只需要加过滤器就可以了啊,当然这是可以实现的啊,这是可以实现的,哎,但是这种方法呢,我们不讲啊,这没什么意义,对不对,你只要扫描全表的一个数据,经过过滤总能得到结果的啊,那这个其实效率并不高啊,效率并不高,我们不讲这种方式,我们讲的呢,是你直接通过SC扫描,直接得到你想要的那个结果。直接扫描就能得到结果,那这样的话效率就更高一点啊,你可以假设一下。整表的一个数据有十个T。
01:02
对吧,你需要得到最终的结果,数据呢,只有一个K,那你如果是扫描之后再过滤,那不就相当于把10T的数据全扫描进来了吗?这不可行,对不对,效率非常低,我们呢,推荐你直接能扫描精准到1K的数据,得到这个结果,那效率呢就会更高一点啊,我们是这样来的,好,首先呢,我们来看一下这个需求啊,把这个数据呢打开。这是我们的对应需要处理的数据,非常的简单,用户日期支付多少钱啊,那这个最终累加的结果我们也知道对吧,就是统,要么统计用户在一段时间内一共支付多少钱,要么统计一段时间内所有的用户支付了多少钱啊,咱们先把数据呢给它复制出来啊,这T不太行。我们找一个专业的文本处理。不烂啊,在这里面呢,可以看得更清楚一点啊,对应的我们把需求也给复制过来。CTRLC啊,CTRLV可以看到我们的两个需求呢,就像我刚才说的,一个是统计单个用户在一定时间范围内消费的总金额,一个呢是统计所有人在单个时间内呢消费的总金额,对吧?那无外乎呢,就这么两个最最基础的一个需求了啊,我们已经把这个数据精简到不能再精简了,记住一个业务对不对?哎,你只要了解了这个最核心的业务,也就是最基础的一个方法,哎,你遇到实际的别的需求呢,你再自己去拓展就可以了啊这是我们的整个的一个呃,R设计的需求介绍。
我来说两句