HBase
主题分析报告
一
简介
HBase是一种构建在HDFS之上的分布式、面向列的存储系统,Java语言开发,2006年底由PowerSet 的Chad Walters和Jim Kellerman 发起,2008年成为Apache Hadoop的一个子项目,2010,年,Hbase成为Apache的顶级项目。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。
功能特性
支持随机实时大数据访问,具有巨大的实时写入吞吐量;
内建支持MapReduce框架,支持高速并行处理数据;
提供原生Java API支持,方便开发。
第1章
非功能特性
数据存储在HDFS上,多副本存放,自动数据恢复和故障处理;
大表自动分区,有效降低IO、提升查询效率;
插拔节点无需停机,横向扩展容易。
特点
大表,一个表可以有上亿行,上百万列;
面向列,面向列表(簇)的存储和权限控制,列(簇)独立检索;
稀疏,空列不占用存储空间,表可以设计的非常稀疏;
无模式,列可以根据需要动态增加,同一张表中不同的行可以有截然不同的列;
数据多版本,每个单元中的数据可以有多个版本,版本号自动分配;
数据类型单一,HBase中的数据都是字符串,没有类型。
版本重大特性
典型应用场景
对象存储:我们知道不少的头条类、新闻类的的新闻、网页、图片存储在HBase之中,一些病毒公司的病毒库也是存储在HBase之中;
时序数据:HBase之上有OpenTSDB模块,可以满足时序类场景的需求;
推荐画像:用户画像是一个大的稀疏矩阵,蚂蚁的风控就是构建在HBase之上;
时空数据:主要是轨迹、气象网格之类,滴滴打车的轨迹数据主要存在HBase之中,另外在技术所有大一点的数据量的车联网企业,数据都是存在HBase之中;
消息/订单:在电信领域、银行领域,很多订单查询底层的存储使用Hbase,很多通信、消息同步的应用构建在HBase之上。
未来展望
HBase目前仍处在高速发展阶段,新特性不断增加,问题快速修复,社区活跃程度很高,Hbase向上对大数据计算如Spark、Kylin提供存储支持,向下屏蔽HDFS的复杂性,是Hadoop生态里不可或缺的,同领域没有比Hbase更有竞争力的开源产品,在可预见未来里,仍然是主流的开源选择。
——//////////——
平台云课堂
为邮储科技人带来有价值有温度的阅读
领取专属 10元无门槛券
私享最新 技术干货