首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Hadoop Hbase适合存储哪类数据?

最适合使用Hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。Hbase之所以擅长存储这类数据,是因为Hbase是column-oriented列导向的存储机制,而我们熟知的RDBMS都是row- oriented行导向的存储机制(郁闷的是我看过N本关于关系数据库的介绍从来没有提到过row- oriented行导向存储这个概念)。在列导向的存储机制下对于Null值得存储是不占用任何空间的。比如,如果某个表 UserTable有10列,但在存储时只有一列有数据,那么其他空值的9列是不占用存储空间的(普通的数据库MySql是如何占用存储空间的呢?)。         Hbase适合存储非结构化的稀疏数据的另一原因是他对列集合 column families 处理机制。 打个比方,ruby和python这样的动态语言和c++、java类的编译语言有什么不同? 对于我来说,最显然的不同就是你不需要为变量预先指定一个类型。Ok ,现在Hbase为未来的DBA也带来了这个激动人心的特性,你只需要告诉你的数据存储到Hbase的那个column families 就可以了,不需要指定它的具体类型:char,varchar,int,tinyint,text等等。         Hbase还有很多特性,比如不支持join查询,但你存储时可以用:parent-child tuple 的方式来变相解决。         由于它是Google BigTable的 Java 实现,你可以参考一下:google bigtable 。         下面3副图是Hbase的架构、数据模型和一个表格例子,你也可以从:Hadoop summit 上 获取更多的信息。

04

大数据课设,做个Hbase关键词查找文件(五)

题目:电影搜索引擎 功能:根据文档数据集,模拟用户输入一个电影关键 词后,搜索到哪些文档 难度系数:1.2 l.生成模拟数据集:用C+、Java、Python等语言编 写程序,按以下格式要求生成一个较大的模拟数据集 (不少于10000条数据)。 文档ID关键词ID1:出现次数关键词ID2:出现次数关 键词ID3:出现次数关键词ID4:出现次数.… 注意:关键词D1:6,表示关键词D1这一列的值为 6(即出现次数) 2.HBase编程:编写Java程序,实现本题功能,即在 HBase中创建一个表doc,把数据集中的数据全部插 入到doc表,然后再输入一个电影关键词,按以下格 式输出查询结果。尽可能详细描述程序的编译、在 DE环境下测试、打包、执行完整过程,附相应的截 图及程序执行结果。 文档D1:出现次数 文档D2:出现次数 文档D3:出现次数 3.测试:在HBase的Shell中测试上述Java程序的执行 结果。要求尽可能描述详细的测试过程和结果。

03

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券