首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

数据分区的策略

在之前的数据复制当中,我们有一个前提就是数据量不会很大,但是随着公司的发展,再加上埋点等各种数据收集的发展,数据量会爆发式的增长,那么单台服务器很难处理这么庞大的数据了。数据必须分布在各个服务器上,这就是数据分区(partition),在不同的数据系统有着不同的叫法,比如在MongoDB、Elasticsearch、SolrCloud被称为shard,HBase被称为region,Cassandra和Riak被称为vnode,名称虽多但是本质确实一样的。当数据分布在各个服务器时,对性能也会有很大的提高,因为对数据的读取压力会由多台服务器分担。在下面的讨论中,我们会先讨论如何数据分区的方法,再去看看数据热点的rebalancing,最后会讨论如何将请求发送到正确的partition上。

03

2021年大数据HBase(十四):HBase的原理及其相关的工作机制

flush溢写流程:   hbase 2.0版本后的流程       随着客户端不断写入数据到达memStore中, memStore内存就会被写满(128M), 当memStore内存达到一定的阈值后, 此时就会触发flush刷新线程, 将数据最终写入HDFS上, 形成一个StoreFile文件 1) 当memStore的内存写满后, 首先将这个内存空间关闭, 然后开启一个新的memStore, 将这个写满内存空间的数据存储到一个pipeline的管道(队列)中 (只能读, 不能改) 2) 在Hbase的2.0版本后, 这个管道中数据, 会尽可能晚刷新到磁盘中, 一直存储在内存中,  随着memStore不断的溢写, 管道中数据也会不断的变多 3) 当管道中数据, 达到一定的阈值后, hbase就会启动一个flush的刷新线程, 对pipeline管道中数据一次性全部刷新到磁盘上,而且在刷新的过程中, 对管道中数据进行排序合并压缩操作, 在HDFS上形成一个合并后的storeFile文件

02

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券