以一个例子说明,假设某一份数据有10行,在某一列的取值分别为["A", "A", "B", "C", "B", "C", "D", "C", "D", "D"],其对应的存储情况如下:
1....下面每一行均有4个字段,分别为列名、该列数据所在的.smoosh文件ID、该列数据在.smoosh文件中起始字节数、该列数据在.smoosh文件中终止字节数。...在持久化的Segment中数据都保存在00000.smoosh文件中,但在逻辑上,不同列的数据存储是分开的。...其中红色框中的数据为该列的取值字典(GenericIndex结构),可以看到该列有26(0x1a)个取值分别为["199", "206", "220"......]...该列使用Table format存储:红色框中的GenericIndex是取值列表,可以看出该列共有7个取值,分别为[2, 14, 4, 16, 6, 8, 18];绿色框中的GenericIndex表示每行对应的