首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Hbase的后缀过滤查询

HBase原生自带了对RowKey的很多种查询策略。...通过这个过滤器可以在HBase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作,也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上(由行键,列明,时间戳定位)。...PageFilter 分页过滤器,通过pageSize设置每次返回的行数,这需要客户端在遍历的时候记住页开始的地方,配合scan的startkey一起使用 FilterList 过滤器集合,Hbase...的过滤器设计遵照于设计模式中的组合模式,以上的所有过滤器都可以叠加起来共同作用于一次查询 KeyOnlyFilter 设置过滤的结果集中只包含键而忽略值, FirstKeyOnlyFilter...TimestampsFilter 这里参数是一个集合,只有包含在集合中的版本才会包含在结果集中 由于其原生带有PrefixFilter这种对ROWKEY的前缀过滤查询,因此想着实现的后缀查询的过程中

3.6K70
您找到你想要的搜索结果了吗?
是的
没有找到

HBase RowKey 设计与查询实践

使用实践 实时维表 ---- 维度字段补充在实时处理链路里面是比较常见的一种操作,例如根据商品ID补齐商品名称、描述等信息,可将商品信息表存储在HBase 中, 查询方式根据商品ID 做Get操作, 商品...多维查询场景 多维查询也就是多条件查询,需要任意维度的组合查询,但是HBase 并不擅长做数据分析,为了保证查询性能,因此通常会在离线侧或者实时侧将多维任意组合的数据指标提前加工好写入HBase 中(即...HBase 本身存储是按照RowKey 字典顺序排序的, 在数据扫描时也是按照startRowKey作为起始值顺序查询出数据。...指定页码 指定页码即可以跳转到指定的分页数据,常见以下几种方式: 内存分页:在MySQL 可通过 limit offset 方式使用,其可以直接跳过指定的行数进行查询,但是对HBASE 却不能这么使用,...只能通过扫描全表数据进行然后进行内存分页, 因此这种方式只能数据量较少的情况下使用 二级索引分页:使用es 做索引,通过es分页查询查询出rowKey, 然后查询HBase 中数据, 将scan操作转换为批量

1.1K20

hue 查询 hbase 操作相关参考

界面操作说明 进入hue中的hbase 进入表的查询界面 界面说明 查询语句 ,表示结束查询,可以不加 主键查询 输入主键 rowkey1,rowkey2 说明:只输入主键查询 例1:00000051...|1538229142 例2:00000051|1538229142,00000051|1538230148 根据主键的前缀查询 row_prefix*, 说明:根据主键的前几位进行模糊查询,默认只显示一条数据...ValueFilter(=,'substring:111') 列值中包含111 ValueFilter(=,'binary:111') 列值等于111 以上过滤器是大部分常用的过滤器,在hue-hbase...以下是我自己整理的一部分参考语法: hbase中有单纯根据列值查询的ValueFilter和根据列名和列值查询的SingleColumnValueFilter,可根据需要选择。...下表中是按照根据列名和列值来进行查询的参考 SQL hue_hbase select col1,col2 [col1,col2] where col1="student" SingleColumnValueFilter

1.8K30

HBASE+Solr实现详单查询

最近群里面讨论HBASE的使用场景,以及是会没落,这个还真是一句话说不清楚。本文讲其中一个场景:详单查询。 背景 某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询。...HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快速检索,对于多字段的组合查询却无能为力。...针对HBase的多条件查询也有多种方案,但是这些方案要么太复杂,要么效率太低,本文只对基于Solr的HBase多条件查询方案进行测试和验证。...原理 基于Solr的HBase多条件查询原理很简单,将HBase表中涉及条件过滤的字段和rowkey在Solr中建立索引,通过Solr的多条件查询快速获得符合过滤条件的rowkey值,拿到这些rowkey...之后在HBASE中通过指定rowkey进行查询

2K50

Spark如何读取Hbase特定查询的数据

最近工作需要使用到Spark操作Hbase,上篇文章已经写了如何使用Spark读写Hbase全量表的数据做处理,但这次有所不同,这次的需求是Scan特定的Hbase的数据然后转换成RDD做后续处理,简单的使用...Google查询了一下,发现实现方式还是比较简单的,用的还是Hbase的TableInputFormat相关的API。...基础软件版本如下: 直接上代码如下: 上面的少量代码,已经完整实现了使用spark查询hbase特定的数据,然后统计出数量最后输出,当然上面只是一个简单的例子,重要的是能把hbase数据转换成RDD,只要转成...注意上面的hbase版本比较新,如果是比较旧的hbase,如果自定义下面的方法将scan对象给转成字符串,代码如下: 最后,还有一点,上面的代码是直接自己new了一个scan对象进行组装,当然我们还可以不自己

2.7K50

大数据查询——HBase读写设计与实践

单笔查询返回 List 大小约 50 条以下,查询频率为 100 笔 / 天左右,查询响应时间 2s。...技术选型 从数据量及查询要求来看,分布式平台上具备大数据量存储,且提供实时查询能力的组件首选 HBase。根据需求做了初步的调研和评估后,大致确定 HBase 作为主要存储组件。...众所周知,HBase 是基于 RowKey 提供查询,且要求 RowKey 是唯一的。RowKey 的设计主要考虑的是数据将怎样被访问。初步来看,我们有 2 种设计方法。...查询时,先找到 check_id 对应的 id list,然后根据 id 找到对应的记录。均为 HBase 的 get 操作。 ②将本需求可看成是一个范围查询,而不是单条查询。...process query Step1: 根据查询条件,确定 RowKey 前缀 根据 3.3 RowKey 设计介绍,HBase 的写和读都遵循该设计规则。

1.3K90

大数据查询——HBase读写设计与实践

原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重。...单笔查询返回 List 大小约 50 条以下,查询频率为 100 笔 / 天左右,查询响应时间 2s。...技术选型 从数据量及查询要求来看,分布式平台上具备大数据量存储,且提供实时查询能力的组件首选 HBase。根据需求做了初步的调研和评估后,大致确定 HBase 作为主要存储组件。...将需求拆解为写入和读取 HBase 两部分。...写入 HBase 的方法大致有以下几种: Java 调用 HBase 原生 API,HTable.add(List(Put))。

1.3K50

HBase查询一张表的数据条数的方法

HBase查询一张表的数据条数的方法 0、写在前面 1、HBase-Shell的count命令 2、Scan操作获取数据条数 3、执行Mapreduce任务 4、Hive与HBase整合 5、协处理器...Coprocessor实现 6、参考资料 ---- 0、写在前面 Linux版本:Ubuntu Kylin 16.04 Hadoop版本:Hadoop-2.7.2 Zookeeper版本:HBase自带...HBase版本:HBase-1.1.5 Hive版本:Hive-2.1.0 1、HBase-Shell的count命令 hbase(main):017:0> help 'count' Count the...可以看到「使用count查询表的数据条数」这个操作可能需要消耗过长时间(运行'$HADOOP_HOME/bin/hadoop jar hbase.jar rowcount' 来运行计数 mapReduce...> ["hive_hbase_test"] 5、协处理器Coprocessor实现 该方法是目前最快实现「查询一张表的数据条数」的方法 为什么利用协处理器后速度会如此之快?

1.7K20
领券