首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

HBase 的MOB压缩分区策略介绍

HBase应用场景非常广泛;社区前面有一系列文章。大家可以到社区看看看;张少华同学本篇主要讲HBase的MOB压缩分区策略介绍,非常赞!大力推荐!...社区系列文章: 新数仓系列:HBase关键能力和特性梳理 HBase 和 Cassandra的浅谈 新数仓系列:Hbase周边生态梳理(1) HBase设计之rowkey设计 ---- 介绍 HBase...通过分离文件的IO路径和MOB文件对象,对文件采取不同的压缩策略,从而减少由于HBase压缩造成的写入扩大。...从HBASE-16981引入按周和月的MOB压缩分区策略,对此MOB文件存放比例相应提高了7%和30%。 HBASE-16981基本思路是将一周或者一个月的MOB文件压缩合并为更大的文件。...HBase MOB的设计目标是减少由于MOB压缩而导致的写入扩大。上述的这种方法没能达到设计目标。 最终的方法 为了克服最初提出方案的不足,在HBASE-16981中采用了新的按周和月压缩策略。

1.5K10

Hadoop2.7.1和Hbase0.98添加LZO压缩

/lib下面 //测试hbase是否支持snappy hbase org.apache.hadoop.hbase.util.CompressionTest /user/webmaster/word.../in/tt2 snappy //测试hbase是否支持lzo hbase org.apache.hadoop.hbase.util.CompressionTest /user/webmaster...hbase表,所占存储空间最大 经过snappy压缩的表,存储空间明显变小 经过lzo压缩的表,存储空间最小 遇到的问题: 一个hbase中,如果同时有两种压缩表,一个是lzo压缩的表,一个是...snappy压缩的表,那么在使用java client去scan数据时,可能会有regionserver会挂掉,经过查看log,发现hbase中并无明显异常,但是同节点的hadoop的datanode的...的客户端租约超时,或者是linux的句柄数太少,等等,经过验证,发现跟这些处理方法没关系,删除了一个snappy压缩的表,继续测试,这下能正常运行了, 至于具体的原理,还没搞清楚,可能与hbase的hfile

1.4K70
您找到你想要的搜索结果了吗?
是的
没有找到

HBaseHBase之what

来加速Hbase的访问,比如cache的.META.元数据的信息。...流程 老的Region寻址方式 在Hbase 0.96版本以前,Hbase有两个特殊的表,分别是-ROOT-表和.META.表,其中-ROOT-的位置存储在ZooKeeper中,-ROOT-本身存储了...(3)Hlog数量上限 前面说到Hlog为了保证Hbase数据的一致性,那么如果Hlog太多的话,会导致故障恢复的时间太长,因此Hbase会对Hlog的最大个数做限制。...注意10G是压缩后的大小,如果使用了压缩的话。 如果1个表一直不拆分,访问量小也不会有问题,但是如果这个表访问量比较大的话,就比较容易出现性能问题。这个时候只能手工进行拆分。还是很不方便。...通过hbase.hregion.majorcompaction参数的值加上或减去hbase.hregion.majorcompaction参数的值乘于一个随机分数的值就确定下一次大合并的时间区间。

3.3K40

HBaseHBase之how

HBase Shell 常用命令: 注意:HBase在linux命令行下操作时,区分大小写 HBase API HBase 提供Java方式的原生接口,其中需要注意的有: (1)创建Connection...HBase Rest Gateway HBase附带的REST服务器,该服务器将HBase表,行,单元和元数据作为URL指定的资源公开。...HBase到Hive 将HBase的数据作为数据源,建立Hive外部表关联到HBase,利用Hive的HQL查询HBase数据,更进一步,将Hive的元数据同步到Impala,利用Impala的SQL...这是HBase二级索引出现的背景。即二级索引是为了让HBase能够提供更多维度的查询能力。...注意:HBase原生并不支持二级索引方案,但基于HBase的KeyValue数据模型与API,可以轻易地构建出二级索引数据。

3.2K20

Hbase(四):Hbase原理

Hbase(四):Hbase原理 Hbase的工作方式 region的分裂和结构 hbase表中的数据按照行键的字典顺序排序 hbase表中的数据按照行的的方向切分为多个region 最开始只有一个...但不是存储的基本单元 内部还具有结构 一个region由多个Store来组成 有几个store取决于表的列族的数量 一个列族对应一个store 之所以这么设计 是因为 一个列族中的数据往往数据很类似 方便与进行压缩...读取数据 hfile的内部由以下部分组成: Data Blocks 段–保存表中的数据,这部分可以被压缩 Meta Blocks 段 (可选的)–保存用户自定义的kv对,可以被压缩。...File Info 段–Hfile的元信息,不被压缩,用户也可以在这一部分添加自己的元信息。 Data Block Index 段–Data Block的索引。...HFile的Data Block,Meta Block通常采用压缩方式存储,压缩之后可以大大减少网络IO和磁盘IO,随之而来的开销当然是需要花费cpu进行压缩和解压缩

3.9K10

HBase篇--HBase常用优化

二.具体优化 1.表的设计  1.1 预分区 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region...因此Hbase的更新其实是不断追加的操作。...的应用场景,可以考虑在应用程序中做缓存,当有新的查询请求时,首先在缓存中查找,如果存在则直接返回,不再查询HBase;否则对HBase发起读请求查询,然后在应用程序中将查询结果缓存起来。...HTable和HTablePool使用注意事项 HTable和HTablePool都是HBase客户端API的一部分,可以使用它们对HBase表进行CRUD操作。...使用solr和hbase整合完成全文搜索。 a) 使用MR批量读取hbase中的数据,在solr里面建立索引(no  store)之保存rowkey的值。

5.9K50

Hbase入门(一)——初识Hbase

本文将介绍大数据的知识和Hbase的基本概念,作为大数据体系中重要的一员,Hbase弥补了Hadoop只能离线批处理的不足,支持存储小文件,随机检索。...而这种特性使得Hbase对于实时计算体系的事件存储有天然的较好的支持。这使得Hbase在实时流式计算中也扮演者重要的角色。 ?...Hbase使用Java编写,还是一种NoSQL数据库,这些特性决定了Hbase独特的应用场景。...的表模型与关系型数据库的表模型不同: ​ Hbase的表没有固定的字段定义; ​ Hbase的表中每行存储的都是一些key-value对; ​ Hbase的表中有列族的划分,用户可以指定将哪些kv...通过将数据增量的存入Hbase,并在流式处理中实时查询Hbase,结合历史得到最终的分析结果。

3.1K30

Hbase(二)Hbase常用操作

Hbase(二):Hbase常用操作 常用shell命令 hbase shell命令 描述 alter 修改列族(column family)模式 count 统计表中行的数量 create 创建表 describe...行,列对应的值,另外也可以指定时间戳的值) deleteall 删除指定行的所有元素值 disable 使表无效 drop 删除表 enable 使表有效 exists 测试表是否存在 exit 退出hbase...shell get 获取行或单元(cell)的值 incr 增加指定表,行或列的值 list 列出hbase中存在的所有表 put 向指向的表单元添加值 tools 列出hbase所支持的工具 scan...通过对表的扫描来获取对用的值 status 返回hbase集群的状态信息 shutdown 关闭hbase集群(与exit不同) truncate 重新创建指定表 version 返回hbase版本信息

3.1K10

使用 HBase - HBase Shell 命令

数人之道原创文章,转载请关注本公众号联系我们 HBase Shell 命令文章大纲 HBase 数据库默认的客户端程序是 HBase Shell,它是一个封装了 Java 客户端 API 的 JRuby...用户可以在 HBase 的 HMaster 主机上通过命令行输入 hbase shell,即可进入 HBase 命令行环境,以命令行的方式与 HBase 进行交互。...使用 quit 或 exit 命令可退出 HBase 命令行环境。 [hadoop@hadoop100 ~]$ hbase shell 下面介绍部分常用的 HBase Shell 操作命令。...1 HBase Shell 数据操作命令 这部分命令主要涉及对 HBase 的命名空间、表及数据的增删改查操作。...下面的操作以《初识 HBase - HBase 基础知识》3.2 节中的数据为基础进行。 图1:HBase Shell 操作基础数据 注意:数据会根据需要进行调整。

10.5K31

HBase漫谈 | HBase技术选型准则

HBase 的主要特性 HBase包含很多特性,这里列举了HBase的一些关键特性: 强一致性读写:HBase并不是最终一致性,而是强一致性的系统,这使得HBase非常适合做高速的聚合操作。...什么时候使用 HBase HBase作为一款NoSQL数据库,前面也提及了并不能解决所有问题。...3、能够容忍NoSQL短板 前面提及了NoSQL并不能解决所有问题,HBase也是一样,如果业务场景是需要事务支持、表与表的关联查询等,不建议使用HBase。...4、数据分析需求并不多 虽然说HBase是一个面向列的数据库,但它有别于真正的列式存储系统比如Parquet、Kudu等,再加上自身存储架构的设计,使得HBase并不擅长做数据分析,或者说数据分析是HBase...HBase 的使用场景 由于HBase丰富的特性,加上自身的海量数据存储能力与超大规模并发访问能力,使得HBase应用非常广泛。

3.1K10

HBase

负责存储 HBase 的实际数据   2. 处理分配给它的 Region   3. 刷新缓存到 HDFS   4. 维护 HLog   5. 执行压缩   6....Snappy和LZO压缩 10.4 合理设计RowKey和ColumnFamily   在一张HBase表格中RowKey和ColumnFamily的设计是非常重要,好的设计能够提高性能和保证数据的准确性...下面是一些常见的考虑因素: 硬件配置:如果集群的硬件配置较弱,那么设置较小的 hbase.hregion.max.filesize 可以减轻负载,避免过度压缩系统资源。...存储格式:如果使用的是 HBase压缩格式(如 Snappy、Gzip 等),则需要考虑压缩比率。...通常情况下,压缩后的数据文件会变得更小,因此可以设置较大的 hbase.hregion.max.filesize,以减少 Region 的数量和管理开销。

26630

Hbase-2.0.0_04_Hbase原理 1.1. Hbase特性:

参考博客:Hadoop HBase概念学习系列 参考博客:Hadoop HBase概念学习系列之HBase里的Zookeeper(二十一) 参考博客:Hadoop HBase概念学习系列之HBase里的客户端和...HBase集群建立连接(详细)(十四) 参考博客:Hadoop HBase概念学习系列之META表和ROOT表(六) 参考博客:Hadoop HBase概念学习系列之HBase里的HRegion(五)...参考博客:Hadoop HBase概念学习系列之HLog(二) 参考博客:Hadoop HBase概念学习系列之HRegion服务器(三) 参考博客:Hadoop HBase概念学习系列之HMaster...服务器(四) 参考博客:ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用 参考博客:HBase介绍和工作原理 参考博客:深入了解HBASE架构(转) 1....MapReduce: HBase支持通过MapReduce进行大规模并行处理,将HBase用作source和sink。 Java客户端API: HBase支持易于使用的Java API进行编程访问。

2.1K30

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券