《NoSQL主题分析报告-HBase》

HBase

主题分析报告

简介

HBase是一种构建在HDFS之上的分布式、面向列的存储系统,Java语言开发,2006年底由PowerSet 的Chad Walters和Jim Kellerman 发起,2008年成为Apache Hadoop的一个子项目,2010,年,Hbase成为Apache的顶级项目。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。

功能特性

支持随机实时大数据访问,具有巨大的实时写入吞吐量;

内建支持MapReduce框架,支持高速并行处理数据;

提供原生Java API支持,方便开发。

第1章

非功能特性

数据存储在HDFS上,多副本存放,自动数据恢复和故障处理;

大表自动分区,有效降低IO、提升查询效率;

插拔节点无需停机,横向扩展容易。

特点

大表,一个表可以有上亿行,上百万列;

面向列,面向列表(簇)的存储和权限控制,列(簇)独立检索;

稀疏,空列不占用存储空间,表可以设计的非常稀疏;

无模式,列可以根据需要动态增加,同一张表中不同的行可以有截然不同的列;

数据多版本,每个单元中的数据可以有多个版本,版本号自动分配;

数据类型单一,HBase中的数据都是字符串,没有类型。

版本重大特性

典型应用场景

对象存储:我们知道不少的头条类、新闻类的的新闻、网页、图片存储在HBase之中,一些病毒公司的病毒库也是存储在HBase之中;

时序数据:HBase之上有OpenTSDB模块,可以满足时序类场景的需求;

推荐画像:用户画像是一个大的稀疏矩阵,蚂蚁的风控就是构建在HBase之上;

时空数据:主要是轨迹、气象网格之类,滴滴打车的轨迹数据主要存在HBase之中,另外在技术所有大一点的数据量的车联网企业,数据都是存在HBase之中;

消息/订单:在电信领域、银行领域,很多订单查询底层的存储使用Hbase,很多通信、消息同步的应用构建在HBase之上。

未来展望

HBase目前仍处在高速发展阶段,新特性不断增加,问题快速修复,社区活跃程度很高,Hbase向上对大数据计算如Spark、Kylin提供存储支持,向下屏蔽HDFS的复杂性,是Hadoop生态里不可或缺的,同领域没有比Hbase更有竞争力的开源产品,在可预见未来里,仍然是主流的开源选择。

——//////////——

平台云课堂

为邮储科技人带来有价值有温度的阅读

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20181107G1M5AX00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券