00:00
好,分同表它自己有自己一个特定的一个查询方式,当然你这种C量的心,或者说你之前所做的这个也都是可以的,也都是可以的,但是你要想想看啊,分铜表它是因为数据量特别大的时候,我们才建立的吧。才建立的,那你有时候去查询全量那个数据啊,会很不好。啊,效率很低,而且有时候我们做很多分析的时候,我们只需要抽样查询就够了,抽样查询而不需要所有的一个数据集。那这个时候你要建分层表,它就提供特定的一个抽象查询的一个规则,查询的一个规则。你看他的说,对于非常大的一个数据结,有时候需要具有代表性的查询结果,我们不是全部的结果,那我们一般是不是采用像这种需求的时候,我们一般都是抽样吗?哎,抽样,那也就是说在分农表里边啊,我们只需要抽某几个统里面数据拿出来看一看就够了吧,哎,做一个相应的分析就够了,那我们怎么来抽它里面不同的一个桶的数据呢?
01:08
你像分区我们知道,如果我们想拿一个或者多个分区里面数据怎么拿呀。是不是用V词句啊,对吧,用V词句来,但是分筒。你这个有用吗?Will词句里面能指定。哪个桶吗?不能吧,啊不能的,因为桶它不是一个文件夹,它具体到文件吗。啊,具体到文件了,所以在分组表当中啊,它提供了这样一个查询语句。前面的查询语句是一样的,后面就是。你要抽样的。啊,抽样的,那我们需要看一下。这里面东西啊,表示什么意思,表示什么意思来,首先它里面有一个buck X out of y out of y是这样的,那这个X跟Y表示什么意思呢?首先这个Y啊。
02:10
必须是table总派数的倍数和因子。倍数的因子,那它有这个前提之后,那应该就知道了。他肯定是要拿着什么你的桶数来除以。这个Y吧,那要不然他要它倍数或者因子干什么呀,对吧,他肯定是为了能整除或者除出来是正好是1/13这种数字吧,好。那我们就知道了,他肯定是决定出多少内容的。好,然后它根据Y的大小决定抽象的一个比例,看到了吗?哎,决定抽样的比例,如果说table总共四份,就像我们现在的一样啊,是不是四个图啊,如果说Y等于二,它就抽取两个桶,最终会抽取两个桶一个数据。啊,抽取两个桶,它是就是说这个Y啊,决定抽多少数据的,懂我的意思吗?决定抽多少数据的在举例,当Y它八的时候,从1/2个桶里面数去。
03:11
当Y等于八,你现在不是四个桶吗?对吧,抽1/2个桶里面数据,也就是说Y它决定抽多少,决定抽多少,那X就知道是什么意思了。从哪抽吧,那你要抽样抽多少你知道了,你从哪抽你得告诉人家啊,那X就决定从哪抽的来看一下啊。那其实X啊,它表示从哪个八倍的开始抽。那你要抽两个。那你X你本来两个桶是1234吧。1234好,那你要从第一个桶开始抽。第一个桶来抽,那这有一个疑问了,到底是出一二还是1314呢?这就是一个问题吧,因为他只说了X表示从哪个桶开始抽。你要注意它后面还有它这样的,它后面的如果还有多个的话,它是从X加Y,第二个是X加Y。
04:11
也就是说,如果说我这里面写的是8K的一二的方二,那出的是哪两个区啊,哪哪两个桶啊。一和三吧,一三号啊,那我来做一下,把这个法拿过来。他C,然后粘过来,这个出的是。什么?这个语法是抽的是什么什么内容。你想想看,前面是X,后面是Y。Y决定的是什么?抽多少了,抽多少,那那Y是四,抽多少个,抽一个吧,是是抽多少是不是四除以四,这个四是什么?统数吧,还是统数,这个是Y。
05:06
啊,同数除以半抽一个桶,那X决定的是从哪个桶开始抽,是不是就从第一个桶开始抽,抽一个,那其实就是抽的是第一个吧。是不是第一个呀,第一个桶,那如果说改成。啊,那抽的刚才我们分析的应该是这个没意思是吧,还是第一个应该改后面的是吧。把这个改成233不行吗?这个说了Y的因子或者倍数三其实可以的,但是抽出来的数据你没有办法知道,你看这是什么。你报分析。你就是不满足他提供的一个规则,对吧,那你要想自己能看不懂,你把它写成二,那二这个应该是什么。两个分区里面内两个分里面内容这两个桶分别是哪两个啊?
06:02
是一三吗?一吃六桶三是不是二六四二六十是吧。是吧,啊,它其实就表示这个意思,但是它有一个规则,看一下啊,它说X的值啊,必须小于Y的值。就说如果说我这个是二。必须小于是吧,小于等于是吧。小于等于啊,我把这个改成三。画错了,画错了必须小于等于,那你稍微想一下也能想明白这个问题。你看一下啊来。假设你的桶数是C,可以吗?你现在有XYZ这三个数,我们算一下啊,它为什么不能假设你的统数为Z,这没问题吧?出多少内容?
07:01
出外个吗?出Z除以Y个吧,出这么多个好,第一个是什么X?第二个呢?X加Y是吧,X加Y好,最后一个呢。加什么?加Y分之C减一乘以Y是不是啊?因为你这个第二个是加Y,第三个不是又加Y吗?也就是说你抽第N个的时候,其实加了N减一个Y是不是,那最后一个是不是这个。是这个式子,好,我们把这个一化简,最后等于什么?等于X?加C减Y。那X如果大于Y。X减Y。大于零吧。
08:00
Z加零大于Z了是不是啊,也就是说最后一个区取不到了,至少最后一个区取不到啊,所以说它是不让你X大于Y的,X大于Y的啊,是这个意思啊,稍微分析一下,它分析出来它为什么X1定要小于等于Y,其实等于的时候,它正好是取到最后一个区外啊一个同里的,其实这个意思他不让你大于。不让你大于,这是分成的具体的抽样啊,具体抽样你要这个决定,Y是决定抽多少内容,然后X决定从哪抽,那你抽象规则你肯定要告诉他从哪抽,抽多少嘛,哎,有了这两个东西之后,那他就知道怎么去做了。啊,当然你自己写的时候,你这个地方你不要写不是它的因子或者倍数啊,其实可以的是吧,刚才我们测了,但是那个三啊,其实你分析不好分析的,或者说我们再来测一个这个。一然后测一个八是吧,因为我们刚才都是错的,它的一个因子是不是,哎,八是它这个倍数,那应该就抽一半吧,抽一半,哎,第一个区里面的抽一半内容,1/2个桶啊,1/2个桶里面内容还是这样的,你只要抽它的一个因子或者倍数都好计算,都好计算。
我来说两句