00:00
So,咱们讲完了是吧,那接下来呢,下边是这个德鲁伊当中的数据结构,数据结构就是说我们数据啊,诶存储到德鲁伊当中之后,它到底是以什么样的形式去呈现给我们的,呈现给我们的啊这样呢,我们讲了俩概念,一个是它的这个data source,还有一个呢,是这个呃,Segment。那data source是什么呢?Data source是这样的,给大家说一下,Data source呢,就相当于是咱们的一个这个这个虚拟的这样的一个一个一个一个概念,一个逻辑上的一个概念,那segment呢,它是一个什么东西,它是一个这个物理上的一个数据的结构,一个物理上的结构,咱们分开说,先说data source啊,好,那往下走。点开这个PPT。咱先看这个data source data source这边呢,有一句话就是说data source呢,它相当于关型数据库当中的table的概念,相当于表,因为咱们数据呢,写到德鲁伊里边呢,我也是一张表。对不对,那有表我是不是就可以写circle了呀,就是这样啊好,那既然是表,表里边肯定得有行有列对吧?那我们看它的列是什么列,列这边呢,分为这样的三种,一种是时间列,一种是维度列,还有一种是指标列。
01:08
时间维度指标。时间维度指标,那这个时间这边呢,我们前面讲过,因为它是一个时序数据库,所以要求啊,必须得有一个时间字段,对吧,那维度列是什么呢。维度的,还有指标类,这是什么?这个大家应该比较熟悉吧,这是不是就是咱们OLAOI分析的概念,有维度,有指标。对吧,跟我们麒麟是一样的,麒麟是一样的啊,然后大家这时候呢,其实这个时间链呢,你可以单独的把它拿出去看,其实也可以不把它拿出去,你可以把它并到哪啊,是不是也可以并到这个维度列里边去看待啊。对吧,相当于它是不是就是一个时间维度啊,是不是,诶就是这样的,那其实我们呃,在使用德鲁伊的时候呢,我们也是需要去给它定义好,哪些是维度,哪些是度量,那你度量这边你要去求最大值还是最小值,还是求和,也是需要我们提前定义好,那定义好之后,我们数据往德一里边一写,那我这边就会进行预计算。
02:01
预算之后呢,我就直接查结果,这跟麒麟这个概念还是比较像的啊好了,那现在往下看,下边呢。就是说我们无论是实时消费还是诶批处理,批处理,那我们都可以对数据进行这个聚合操作,都可以进行聚合操作,那聚合的时候他是怎么聚合的呢?首先它是会把这个什么样的聚合到一起呢?会把时间这个,诶这个维度都相同的数据会聚合到一组里边,诶那同学可能会比较差异了,那我这个这边啊。这边诶这些维度我可能是完全相同的,我能聚合到一起,那你时间怎么聚合呢。对不对,时间怎么集合,那其实这样的,我们默认是这边啊,是把一分钟的数据我聚合到一起,就是一一分钟的数据聚合到一起,一分钟的数据聚合到一起,这是他这边默认的情况,当然这个东西是可配置的,你也可以让他十秒钟聚到一起,或者一个小时的聚到一起也是可以的。是这样的啊好,那这个就是咱们所谓的data source,这个数据结构,所谓的data source啊,就是其实就是一个表的结构,里边呢,有时间字段,有维度列,有度量值,好那接下来我们去说那个segment啊,那segment是什么呢?往下看。
03:12
Segment呢,它是一个这个呃,数据的实际物理存储格式。存储格式,那这个所谓的赛格曼怎么存的?往下看,德鲁伊呢?将不同时间范围的数据存储在不同的数据块当中。不同,Segment是按照什么去分片的呢?是按照这个时间分片的,前面咱们不是讲过吗?就是德鲁伊是一个属于时序数据库,会让时间进行分片,那每一个片在这呢,就叫做一个segment。这sment啊,其实就指的这个,那这样一来我们去按照时间去缩引数据的时候呢,我能够直接是不是找对应的块啊,那这样效率是比较高的,那这边呢,呃,他又提到了两个概念,一个叫什么数据的横向切割,一个叫数据的这个什么纵向切割是不是啊,那其实这两边啊,呃,这这个所谓的横向和纵向其实指的是什么呢?呃,我给大家画一个图你就明白了啊,比如说这个呢,是我们德履意当中的一个这个呃,一个表,因为咱们有data so的概念嘛,比如说就是一张表,那这个表里边呢,首先我我我会干什么,我会进行列式存储,咱们前面讲了会列式存储。
04:13
那所谓的列存储就是什么,是不是就是所谓的纵向切割呀,对不对,咱们纵向切割那还会干什么,还会按照这个时间进行分片,对不对,按照时间分片,那也就所谓的横向切割。对不对,那也就咱们数据呢,被纵向切割,被横向切割,那这样一来你获取任意一部分的数据呢,都能够非踌快速的去获取到,这是咱们这边德鲁这个所谓的横向和纵向切割是这样的啊,那这个咱们就这个说完了,这就所谓的这个data source加segment的结构,这个segment其实还好,我们这边呢,主要要求大家呢去,诶掌握咱们这个data source这个这个概念,也就说你得知道这个表里边呢,有什么样的时间,诶有时间列有什么样的维度,哎有什么度量,你得知道这个东西。因为这个东西是是是什么呀,是我们后续使用的时候需要自己去配置的,咱需要自己去配置好,那这边咱们就说完了啊,然后把这个视频先录一下。
我来说两句