专栏首页Apache IoTDB位图索引(bitmap index)

位图索引(bitmap index)

位图索引是一种很高效的索引结构,对于多属性过滤的聚合查询很高效,玩的就是 bit。

本文预计阅读时间 3 分钟。

位图索引基本概念

位图:位(bit)的一个简单数组,比如 001010,这个位数就是 6。

位图索引:假如建立在一个表的列 A 上,对属性 A 中的每一个可能取值都建立位图,位图的位数和数据量相等。

位图的生成方法:如果编号为 i 的记录在属性 A 上的值为 v_j,则 v_j 位图的第 i 位为1,否则为0。

实际例子

我们为性别字段建立位图索引,性别有 3 种取值,分别建立位图索引。

《性别_男》= 100100。表示第 1 个和第 4 个是男,其他不是男,后边类似。

《性别_女》= 011010。

《性别_中性》= 000001。

相同的,对收入也建立位图索引:

《收入_1w》= 101010。

《收入_2w》= 010101。

用法

单属性过滤原始数据查询:单个属性满足条件的原始数据,比如查询所有男性。

直接利用《性别_男》位图去找原始数据就可以了。

多属性过滤原始数据查询:多个属性满足条件的原始数据。比如查询性别为男且收入为1w的记录:

这时就可以将《性别_男》和《收入_1w》两个位图进行 and 操作:

100100 and 101010 = 100000

结果显示只有第一条记录满足条件。

多属性过滤聚合查询:多个属性满足条件的记录聚合值。比如查询男性收入 1w 的人数。

将两个位图进行 and 操作后直接统计 1 的个数,避免了原始数据查询,这是位图索引最快的查询。

实现方式

简单版:用 for 循环来操作两个位图,一个一个位计算。

升级版:用 int 或者 long 来表示位图,直接对 int 或 long 进行 and 操作。

比如 java 中:9 & 10 = 8(1001 & 1010 = 1000)。这样可以一次计算 32 位或者 64 位。

一些约束

位图索引适合枚举类型的取值,连续变化的需要分段离散化才能使用位图。

不知道大家注意到没有,为啥我在性别中加了个中性?因为 bit 有 0/1 两种取值,如果属性也只有两种取值的话,就不需要对每一种取值建立一个位图了,用一个位图就够了,另一个取值将位图取反就可以得到。比如去掉中性,那么《性别_男》= 1000,《性别_女》= 0111。

当删除一个男性记录,可以将《性别_男》中对应位置 0。但是这样取反后就会多出一个女性记录。因此最好还是对属性的每个取值建立位图。

总结

可以在枚举类型的属性上建立位图索引,为属性的每个取值建立一个位图。从而大幅度加速多属性过滤的普通查询和聚合查询。

之前的图有点丑,还是换成这种清爽。读技术文章不易亢奋,欢迎推荐给身边的 IT 人!

本文分享自微信公众号 - IoTDB漫游指南(Apache-IoTDB),作者:铁头乔

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 索引入门:顺序索引

    之前我对索引的了解基本就是主索引和二级索引,此外还经常见到一些其他概念,如聚集索引和非聚集索引,稀疏索引和密集索引等,今天系统整理一下。

    Apache IoTDB
  • NoSQL 与 CAP 理论

    之前我们讨论了传统的数据库事务的 ACID 特性: 解读事务的ACID! 其实传统数据库和 NoSQL 中对于可用性、一致性的理解不一样。 因为有时候会听到一些...

    Apache IoTDB
  • Druid :高性能、列式的分布式数据存储

    GIthub上有两个Druid。其中一个是阿里的数据库连接池,另一个是列式存储的分布式数据存储系统。我曾经一度认为是一个东西,本文介绍后一种Druid。

    Apache IoTDB
  • UWP 手绘视频创作工具技术分享系列 - 位图的绘制

    前面我们针对 SVG 的解析和绘制做了介绍,SVG 是图片的一种形式,而另一种很重要的图片是:位图,包括 png、jpeg、bmp 等格式。位图的基本规则是,组...

    Shao Meng
  • Android自定义View实现粉碎的面具效果

    看效果,咱们可以分析一下,整个效果有四种状态,第一种就是普通状态,第二种是抖动状态,第三种是隐藏图片和粉碎状态,最后就是粉碎完成的状态,这么一分析就很好搞了,根...

    砸漏
  • 前端成神之路-品优购项目(三)

    过渡(transition)是CSS3中具有颠覆性的特征之一,我们可以在不使用 Flash 动画或 JavaScript 的情况下,当元素从一种样式变换为另一种...

    海仔
  • IoU-aware的目标检测,显著提高定位精度

    今天新出的一篇论文IoU-aware Single-stage Object Detector for Accurate Localization,提出一种非常...

    CV君
  • 大数据开发培训需要学习哪些知识内容?

    1. Java编程 Java编程是大数据开发的基础,大数据中很多技术都是使用Java编写的,如Hadoop、Spark、mapreduce等,因此,想要学好大...

    加米谷大数据
  • ICCV 2019论文投稿数破纪录,中科院、清华名列前茅,苹果垫底

    昨日,作为计算机视觉领域里顶级会议这一的 International Conference on Computer Vision (ICCV)公布了 2019 ...

    AI科技大本营
  • Python实现动态循环输出文字功能

    砸漏

扫码关注云+社区

领取腾讯云代金券