00:00
还有一个来,往下走,把这去掉,呃,列裁剪与分区裁剪,什么叫裂裁剪呢?咱们存的都是宽表啊,你不要来个这儿啊。你觉得合适吗?啊,我来给你们试一下啊。我现在在这个库下面对吧,那我就不带库名了,来回车。我呢?他一会儿就挂了,就说什么超出那个大小。让他慢慢跑吧。你觉得这样合适吗?100多个字段呢,一行啊,180个字段啊,这张表130个字段啊,天呐,不要这么玩啊。不要像太晚不要轻易尝试啊,但如果你你觉得官网你想试一下它是吧。我们我也来试一下吧,我省得他报,省得他报错,我先写个户名啊。
01:06
啊,过了好几秒了。好多秒了。好了,我感觉。天呐天呐,不要这么玩啊,同学们。他不是查询慢,它是打印出来慢,你知道吗?它是打印的慢,不是查询慢,你看。人家出来了,但他你看拉过来这么多个字段呢。他至少出来了对吧,这是克里卡house的一个优秀的地方,他查询很快,但是你不要在这打印,你看扫力好,这是一个啊裂裁剪,那如果另一种叫什么分区裁剪什么意思啊,能够提前过滤就过滤,咱们hi普经常怎么用啊,避免分全表扫描,那是不是见的分区表,那咱们写搜索是不是经常为了分区,是为多少对吧?啊通过这种方式啊,那么目前咱们学呢,咱们是可以pre位啊对吧,然后分区怎么样怎么样,这么难用。
02:24
哎呀。查询几个字段来吧,我们在官网跑吧,刚才明显跑很久对吧,你不可能宽表所有字段你都要的,比如说你现在业务上查出来,你要查这几个字段十来个,还是这张表it。好执行,你看效率有没有高一点。是不是快多了,明显,当然他这个官网好像没有那个时长统计啊,哎呀,拉不动了哦不是。它就是不显示啊。不显示就比较恶心了,我拉到最下面。
03:02
它不显示完全,它应该是只显示这么多条。8000多条。这这完完事没有完了还没完事。插电我怕崩了呀,我试过大概是在五分钟到十分钟左右就。就报错了,然后重连肯格。过滤条件很简单对吧,加一个过滤条件,这个我们也跑一下,哎,这个even today。是不是的字段不是是的吧。那如果不确定,咱们来瞅一眼它的什么呢?呃,电表语句嘛,记呃,这里这里这里,我用记事本打开往下拉,直接拉到最后面爬升败,看到没有even的,对,就通常这么来用啊,也是商场上比较推荐的一个方法,那既然控制台不行,那我就跑这儿。
04:11
把它粘过来。是不是也快多了,就是从不同层层级去感受一下哈,快多了。乱七八糟。好,这个没啥好讲的,那我们再讲一个注意事项,Order by。不要单独使用派,是不是也一样的派,如果你单独用order,是不是会进入到一个reducer全局排序,可能内存就爆了对吧?呃。嗯,那咱们其实你对一个数据排序通常是不需要直接输出的。你你要对数据结果排序一一般是取前几个,也就拓N问题,那这个时候你可以依赖于limit米是吧派是不是order by,你要用你就结合limit,用严格模式也可以限制它,对吧?啊那咱们同样的对千万以上的数据集进行order advice。
05:15
搭配我也跟利一起使用,对吧?来咱们瞅一眼,嗯,跑一下看一下,哎呀看不了了。我。我再开一个。我这都卡死了。哎呀,点不了。关键是你,你还不让我停,你打吧,不管你了,我可痛了,哎呀,我进来了,哎。其实他早就查完了,一直在打印打印打印,烦死了。好,我们先看一下,这边有时间统计。他少了处理了多少条数据啊,8000多条吧,为啥,因为咱们是不是分列了一下对吧,数据集是不是减少了,好,那我们再来看另外一个。
06:17
这里我就不加V,也不加厘米的。处理了多少,虽然它很快,但你要看他处理的数据量,因为我这个搜狗语句比较简单嘛,啊这里是多少8000万啊八啊对800万啊,也就是全,他是不是进行了全表扫描啊,对吧,没毛病,那如果加个limit米呢,有用吗?我们看它扫描多少,比如说limit米1000。没有用,Limit是不是最后才过滤啊,但是速度是不是快一点,你看啊。
07:00
这个0.8秒,他利米特呢,0.028秒,它底层也是做了处理的,它并不会一下子全部处理一遍啊。那我们单独V尔就不用单独测了吧,VR是不是肯定会过滤掉数据啊,但至少咱们现在也测出来,单独结合低米特效率明显的有一个质的提升嘛,前面是多少0.8吧,我记得0.8跟零点零二十倍了。对吧,所以跟注意点一样的,那如果你两个一起用,那是不是锦上添花对吧。上上天。
我来说两句