00:00
好,呃,我们看一下存储和压缩的一个结合,这块具有奈米压缩我们已经做过了,对吧,主要看一下就是OC方式。它和snap压缩结合到一块,一个存储效率,哎,怎么它自己翻上去。这样的主要orc这张表。我们刚才有了是吧,但是我们新建一张表,新建一张表,在建表的时候指定一个属性。等于那啊,非压缩格式的存储,非压缩格式的存储,其实我们刚才。那种。走位压缩了啊,Orc它自己也会默认的,是不是有压缩方式啊,就还有当中,那我们可以用这种方式来测一下它的一个大小CTRLC。指定一下不走压缩,不走压缩,来,接下来我们往这个表里面导数据吧,导数据insult。
01:06
或者都行是吧,Into table,然后是这装备,Like from,然后log。下划线T这张表是吧,哎,走一下。导入出去看他。如果你不采用这种,不采用任何压缩方式,它的一个存储是多大啊多大。然后我们还要测的一个是。Orc这种存储格式啊,和snap压缩格式结合在一块呢,看他最终又是多大又是多大,这个已经有了是吧,数据上来了吗?7.73兆。兆,你看本来我们数据是多大呀,原始数据点一是吧,18点18:18点一,那你现在看到的ORC,我们不采用压缩方式。
02:14
7.73。就是他这种列存储方式,你能感觉到它更节省空间一点是吧,好,这个是7.73兆,7.73兆来C拿一下这个放在这也不合适是吧,放在下面吧,点三这好接下来我们要做一个。建一个表,它是耐比压缩的,指定一下,你看压缩格式为奈比。C。已经成功了,然后接下来我们往那个表里边导数据吧。Insert into table,然后是这张表,然后是select,新from logo下划线,然后KBD。
03:04
走一下。看它结合snap这种压缩方式以后,看它的一个大小是什么样子的。那就知道为什么我们公司当中哎常用的是OC的存储方式以及三米的压缩方式吧,那肯定是有各种理由的啊,结束了,然后看一下在这。然后这个吧,杠这种。3.78兆,七八兆。3.78刚才发现,诶他你不指定其他内容,让他默认的时候,它更小是吧,更小,因为他默认的它有一个看啊。这里就解释了,它默认的方式呢,是z lab的形式,Z lab的形式它会更小,但是z lab它有。其他的问题吧,就是它综合来对比。
04:03
压缩效率。是很高,但是它的不是压缩率。Z lab很高。但是压缩效率方面。是不是snap更好啊?压缩率跟压缩效率这样这样搞定,压缩率指的是压缩过后大小的一个比例吧,啊这个压缩率压缩效率呢,速率啊,或者叫速率,速率更好理解,压缩速率就是压缩和解压的一个快慢嘛,这个也是很重要的,也是很重要的,你看其实2.8跟3.8。没有其他的类型,没有什么PU的这种差的多吧,没有其他的这种差的多。所以在公司当中应用啊,通过这些这几组实验啊。还是公司当中用的最多的。还是。Orc的存储方式和snap啊,我们说的是用的最多的,但是你还要结合具体的场景嘛,具体场景其他的压缩方式也不是一无是处,你要对比,你还是要结合。
05:05
哎,这块的一个对比,你去分析啊,对比去分析具体这个业务场景当中,它更适合使用哪一种,更适合使用哪种,当然如果你真的你也搞不清楚需求,真的不太知道用哪一种的时候,你就用那就行了。好吧。
我来说两句