首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

HBase 整体介绍

HBase: NoSQL数据库,基于HDFS的分布式数据库,理论上支持无限横向扩展,         HBase由HMaster与RegionServer组成,HMaster负责协调调度RegionServer进行数据处理,RegionServer负责数据的增删改查操作,RegionServer由多台分布在DataNode的组成,可以有多个。由HMaster负责RegionServer的调度情况,当RegionServer出现异常情况,HMaster进行对MetaRegionServer中的元数据进行更新管理。         当HBase中表的数据不断变大时,表中数据会进行Region分区,分为Region1,Region2...等,RegionServer1负责Region1,RegionServer2负责Region2等;每个RegionServer负责哪个Region的数据区由MetaRegionServer管理,MetaRegionServer运行在多个RegionServer中的任意一个。         HBase数据存储在HDFS上的存储也是按照层级来管理的,不同的库对应不同的目录,库下不同的表亦对应不同的目录,表下不同的Region对应不同的目录,Region下存放这HBase上的数据,HBase的数据是经过特殊处理的,所以直接看不到数据内容         HMaster支持HA高可用,所以在HBase集群对应的HMaster和RegionServer都启动后,在其他的RegonServer上启动HMaster,则该HMaster为StandBy,第一次启动的为Active。         HBase底层接口处理起来会比较吃力,一般处理方式是应用其他工具进行处理,如Flume,Sqoop         MySQL与Hive的区别             MySQL:数据存储会受到限制,可以增删改查数据             Hive:1. 只能进行查询数据,不能进行该数据,可以根据查询结果进行建表存储数据                   2. 基于HDFS,支持分布式存储,可以无限扩容                   3. 基于MapReduce,支持大数据运算         HBase与MySQL的区别                         MySQL:行式存储,适合处理联机事务             HBase:列式存储,适合处理对单列数据(列族归类的数据)进行快缩索引查询         HBase与Hive的区别                     HBase:数据库,数据分布式存储在HDFS上的DataNode节点上,根据对数据进行增删改查等。             Hive:数据仓库,数据存储在HDFS上,与DataNodata 关系不大,管理历史数据,数据量会非常庞大,每天都会进来大量数据,不能进行更新删除操作,         HBase概念             HMaster: 协调管理RegionServer服务状态及元数据管理             RegionServer: 负责对数据表的增删改差操作,主要负责单个Region的数据管理                 RegionData:数据块             MetaRegionServer: 对RegionSever上对应的Region数据块进行索引管理             database 数据库             table: 数据表,定义表时需要指定列族,也可以再表建立后进行列族的管理             RowKey:行键,表示一行数据,一行数据中包含列族定义的东西,             ColumnFamily: 列族,对业务进行分类后,可以根据业务对数据进行分类,把业务类似的一类数据分为一个列族,不同的业务可以分为不同的列族。分列族的主要目的是方便后期对数据的高速索引.             CELL: 数据单元,保存单个KV字段.         运行逻辑:             HMaster协调管理RegionServe,RegionServer主要负责处理Region数据块的处理,MetaRegionServer管理RegionServer对应Region数据的元数据信息。RegionServer服务异常时,HMaster进行元数据迁移,保证对Region数据的管理由对应的RegionServer来管理。             MetaRegionServer管理的元数据信息保存在HDFS上。             Client进行数据处

01

hadoop记录

RDBMS Hadoop Data Types RDBMS relies on the structured data and the schema of the data is always known. Any kind of data can be stored into Hadoop i.e. Be it structured, unstructured or semi-structured. Processing RDBMS provides limited or no processing capabilities. Hadoop allows us to process the data which is distributed across the cluster in a parallel fashion. Schema on Read Vs. Write RDBMS is based on ‘schema on write’ where schema validation is done before loading the data. On the contrary, Hadoop follows the schema on read policy. Read/Write Speed In RDBMS, reads are fast because the schema of the data is already known. The writes are fast in HDFS because no schema validation happens during HDFS write. Cost Licensed software, therefore, I have to pay for the software. Hadoop is an open source framework. So, I don’t need to pay for the software. Best Fit Use Case RDBMS is used for OLTP (Online Trasanctional Processing) system. Hadoop is used for Data discovery, data analytics or OLAP system. RDBMS 与 Hadoop

03

hadoop记录 - 乐享诚美

RDBMS Hadoop Data Types RDBMS relies on the structured data and the schema of the data is always known. Any kind of data can be stored into Hadoop i.e. Be it structured, unstructured or semi-structured. Processing RDBMS provides limited or no processing capabilities. Hadoop allows us to process the data which is distributed across the cluster in a parallel fashion. Schema on Read Vs. Write RDBMS is based on ‘schema on write’ where schema validation is done before loading the data. On the contrary, Hadoop follows the schema on read policy. Read/Write Speed In RDBMS, reads are fast because the schema of the data is already known. The writes are fast in HDFS because no schema validation happens during HDFS write. Cost Licensed software, therefore, I have to pay for the software. Hadoop is an open source framework. So, I don’t need to pay for the software. Best Fit Use Case RDBMS is used for OLTP (Online Trasanctional Processing) system. Hadoop is used for Data discovery, data analytics or OLAP system. RDBMS 与 Hadoop

03

2021年大数据HBase(十四):HBase的原理及其相关的工作机制

flush溢写流程:   hbase 2.0版本后的流程       随着客户端不断写入数据到达memStore中, memStore内存就会被写满(128M), 当memStore内存达到一定的阈值后, 此时就会触发flush刷新线程, 将数据最终写入HDFS上, 形成一个StoreFile文件 1) 当memStore的内存写满后, 首先将这个内存空间关闭, 然后开启一个新的memStore, 将这个写满内存空间的数据存储到一个pipeline的管道(队列)中 (只能读, 不能改) 2) 在Hbase的2.0版本后, 这个管道中数据, 会尽可能晚刷新到磁盘中, 一直存储在内存中,  随着memStore不断的溢写, 管道中数据也会不断的变多 3) 当管道中数据, 达到一定的阈值后, hbase就会启动一个flush的刷新线程, 对pipeline管道中数据一次性全部刷新到磁盘上,而且在刷新的过程中, 对管道中数据进行排序合并压缩操作, 在HDFS上形成一个合并后的storeFile文件

02
领券