首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Hbase 过滤器详解

一、HBase过滤器简介 Hbase 提供了种类丰富的过滤器(filter)来提高数据处理的效率,用户可以通过内置或自定义的过滤器来对数据进行过滤,所有的过滤器都在服务端生效,即谓词下推(predicate...2.2 过滤器分类 HBase 内置过滤器可以分为三类:分别是比较过滤器,专用过滤器和包装过滤器。分别在下面的三个小节中做详细的介绍。...所以 2.0 之后版本的 HBase 需要使用 CompareOperator 这个枚举类。...3.3 比较过滤器种类 比较过滤器共有五个(Hbase 1.x 版本和 2.x 版本相同),见下图: RowFilter :基于行键来过滤数据; FamilyFilterr :基于列族来过滤数据; QualifierFilterr...由于 Hbase 的 RowKey 是按照字典序进行排序的。

1.1K60
您找到你想要的搜索结果了吗?
是的
没有找到

HBase Java API 02:过滤器

HBase过滤器简介 (1) 过滤器简介 过滤器 解释 ColumnPrefixFilter 列前缀过滤器 TimestampsFilter 时间戳过滤器 PageFilter 分页过滤器 MultipleColumnPrefixFilter...复合列前缀过滤器 FamilyFilter 列簇过滤器 ColumnPaginationFilter SingleColumnValueFilter 单列值过滤器 RowFilter 行健过滤器 QualifierFilter...列过滤器 ColumnRangeFilter ValueFilter 值过滤器 PrefixFilter 前缀过滤器 SingleColumnValueExcludeFilter 单列值排除器 ColumnCountGetFilter...InclusiveStopFilter DependentColumnFilter FirstKeyOnlyFilter KeyOnlyFilter (2) 过滤器分类 类别 过滤器 比较过滤器 RowFilter...常见过滤器API package com.aura.hbase.test; import java.io.IOException; import org.apache.commons.lang.StringUtils

1.1K40

HBase客户端API-过滤器

在使用HBase的API查询数据的时候,我们经常需要设置一些过滤条件来查询数据,这个时候我们就需要使用 HBase API 的各种 Filter 来实现这一功能。...在 HBase API 中使用过滤器需要创建一个 Filter 实例,然后使用Scan.setFilter()或者Get.setFilter()来使用 Filter,如下: Table table =...SingleColumnValueExcludeFilter: 单列值排除过滤器,被排除的列返回null PageFilter: 分页过滤器 ColumnPaginationFilter: 列分页过滤器...在 HBase API 提供了一些常用比较运算符,这些写比较器可以用来比较过滤器中的值,如: CompareOperator.LESS CompareOperator.LESS_OR_EQUAL CompareOperator.EQUAL...; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.TableName; import

2.1K50

【单点】每日突破,HBase布隆过滤器

HBase布隆过滤器 问:请描述HBase的布隆过滤器 答: 布隆过滤器可以用于快速判断一个数据是否存在一个集合中。...比如,字符串"hbase"经过哈希计算后,值为3,那么将原数组[0,0,0,0,0]更改为[0,0,0,1,0]。...从HBase 0.96以来,默认启用基于行的Bloom Filters。在查询某行数据时,使用布隆过滤器可以快速排除一些HFile,以减少数据的读取量。...当然HBase除了默认的行级别(row)的布隆过滤器,也支持行+列级别(row+column)的。 如果经常扫描整行数据,可以使用row方式的布隆过滤器,此时也可以加快行+列的查询速度。...以上内容部分参考自官网,对应HBase 2.3版本。 ---- 今天的单点,你是否get到了呢?每日单点,用5分钟收获一点!今天你打卡了没? ---- 后话 如果有帮助的,记得点赞、关注。

67320

HBase的JavaAPI使用--进阶篇--过滤器的使用

本篇博客,小菌为大家带来HBase的进阶使用,关于基础入门操作大家可以去阅览小菌之前的博客《HBase的JavaAPI使用–基础篇》。...过滤器的类型很多,但是可以分为两大类——比较过滤器,专用过滤器 过滤器的作用是在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端; hbase过滤器的比较运算符: LESS <...LESS_OR_EQUAL <= EQUAL = NOT_EQUAL GREATER_OR_EQUAL >= GREATER > NO_OP 排除所有 Hbase过滤器的专用过滤器(...一、比较过滤器 1、rowKey过滤器RowFilter 通过RowFilter过滤比rowKey 0003小的所有值出来 /** * hbase 行键过滤器 RowFilter *...QualifierFilter 只查询name列的值</font /** * hbase过滤器 * [只查询name列] * @throws Exception

1.5K40

大数据技术之_11_HBase学习_03_HBase 实战之谷粒微博(练习API) + 扩展知识(布隆过滤器+HBase2.0 新特性)

Table对象         Table conTable = conn.getTable(TableName.valueOf(Constant.CONTENT));         // 扫描(过滤器...布隆过滤器只需要哈希表 1/8 到 1/4 的大小就能解决同样的问题。...布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。...布隆过滤器的好处在于快速,省空间,但是有一定的误识别率,常见的补救办法是在建立一个小的白名单,存储那些可能个别误判的邮件地址。   ...布隆过滤器具体算法高级内容,如错误率估计,最优哈希函数个数计算,位数组大小计算,请参见 http://blog.csdn.net/jiaomeng/article/details/1495500。

77310

HBaseHBase之how

HBase Shell 常用命令: 注意:HBase在linux命令行下操作时,区分大小写 HBase API HBase 提供Java方式的原生接口,其中需要注意的有: (1)创建Connection...HBase Rest Gateway HBase附带的REST服务器,该服务器将HBase表,行,单元和元数据作为URL指定的资源公开。...HBase到Hive 将HBase的数据作为数据源,建立Hive外部表关联到HBase,利用Hive的HQL查询HBase数据,更进一步,将Hive的元数据同步到Impala,利用Impala的SQL...这是HBase二级索引出现的背景。即二级索引是为了让HBase能够提供更多维度的查询能力。...注意:HBase原生并不支持二级索引方案,但基于HBase的KeyValue数据模型与API,可以轻易地构建出二级索引数据。

3.2K20

HBaseHBase之what

来加速Hbase的访问,比如cache的.META.元数据的信息。...流程 老的Region寻址方式 在Hbase 0.96版本以前,Hbase有两个特殊的表,分别是-ROOT-表和.META.表,其中-ROOT-的位置存储在ZooKeeper中,-ROOT-本身存储了...(3)Hlog数量上限 前面说到Hlog为了保证Hbase数据的一致性,那么如果Hlog太多的话,会导致故障恢复的时间太长,因此Hbase会对Hlog的最大个数做限制。...该参数为:hbase.hregion.majorcompaction.jitter 具体算法为: hbase.hregion.majorcompaction参数的值乘于一个随机分数,这个随机分数不能超过...通过hbase.hregion.majorcompaction参数的值加上或减去hbase.hregion.majorcompaction参数的值乘于一个随机分数的值就确定下一次大合并的时间区间。

3.3K40

Hbase(四):Hbase原理

Hbase(四):Hbase原理 Hbase的工作方式 region的分裂和结构 hbase表中的数据按照行键的字典顺序排序 hbase表中的数据按照行的的方向切分为多个region 最开始只有一个...写入数据到hdfs的过程其实是不断追加hfile的过程 Hbase写入数据 数据写入hbase时 先在hlog中记录日志 再修改memstore 直接返回成功 这样 不需要真正等待写入hdfs的过程 所以很快...由于hbase中的数据天然排序 再加上索引 整个查询也可以非常的快 Hbase中的region的寻址 在hbase中有一个hbase:meta表,其中存放了 表和region和regionSever 之间的对应关系信息...​ 支持增、删、读、改、顺序扫描操作 ​ 牺牲了一部分读的性能换取了高效写入能力 Hbase系统架构 hbase中的老大叫hmaster 小弟叫hregionServer 客户端叫Client...Zookeepr为hbase提供集群协调 client 访问hbase 保留一些缓存信息提升效率 zookeeper 保证任何时候集群只有一个HMaster 监控regionServer的状态

3.9K10

HBase篇--HBase常用优化

二.具体优化 1.表的设计  1.1 预分区 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region...因此Hbase的更新其实是不断追加的操作。...的应用场景,可以考虑在应用程序中做缓存,当有新的查询请求时,首先在缓存中查找,如果存在则直接返回,不再查询HBase;否则对HBase发起读请求查询,然后在应用程序中将查询结果缓存起来。...HTable和HTablePool使用注意事项 HTable和HTablePool都是HBase客户端API的一部分,可以使用它们对HBase表进行CRUD操作。...使用solr和hbase整合完成全文搜索。 a) 使用MR批量读取hbase中的数据,在solr里面建立索引(no  store)之保存rowkey的值。

5.9K50

Hbase入门(一)——初识Hbase

本文将介绍大数据的知识和Hbase的基本概念,作为大数据体系中重要的一员,Hbase弥补了Hadoop只能离线批处理的不足,支持存储小文件,随机检索。...而这种特性使得Hbase对于实时计算体系的事件存储有天然的较好的支持。这使得Hbase在实时流式计算中也扮演者重要的角色。 ?...Hbase使用Java编写,还是一种NoSQL数据库,这些特性决定了Hbase独特的应用场景。...的表模型与关系型数据库的表模型不同: ​ Hbase的表没有固定的字段定义; ​ Hbase的表中每行存储的都是一些key-value对; ​ Hbase的表中有列族的划分,用户可以指定将哪些kv...通过将数据增量的存入Hbase,并在流式处理中实时查询Hbase,结合历史得到最终的分析结果。

3.1K30

Hbase(二)Hbase常用操作

Hbase(二):Hbase常用操作 常用shell命令 hbase shell命令 描述 alter 修改列族(column family)模式 count 统计表中行的数量 create 创建表 describe...行,列对应的值,另外也可以指定时间戳的值) deleteall 删除指定行的所有元素值 disable 使表无效 drop 删除表 enable 使表有效 exists 测试表是否存在 exit 退出hbase...shell get 获取行或单元(cell)的值 incr 增加指定表,行或列的值 list 列出hbase中存在的所有表 put 向指向的表单元添加值 tools 列出hbase所支持的工具 scan...通过对表的扫描来获取对用的值 status 返回hbase集群的状态信息 shutdown 关闭hbase集群(与exit不同) truncate 重新创建指定表 version 返回hbase版本信息

3.1K10
领券