首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >HBASE :批量加载(我的理解正确吗)

HBASE :批量加载(我的理解正确吗)
EN

Stack Overflow用户
提问于 2014-04-14 05:42:03
回答 1查看 793关注 0票数 0

大容量加载通常使用map reduce在HDFS上创建一个文件,然后将该文件与一个区域相关联。

如果是这样,我的客户端是否可以(在本地)创建此文件并将其放到hdfs上。因为我们已经知道键是什么,值是什么,所以我们可以在本地执行此操作,而无需加载服务器。谁能举出一个例子,hfile是如何创建的(任何语言都可以)

问候

EN

回答 1

Stack Overflow用户

发布于 2014-04-27 00:53:30

实际上,没有什么能阻止任何人“手工”准备HFile,但这样做会导致HFile兼容性问题。根据这个(https://hbase.apache.org/book/arch.bulk.load.html),你只需要把你的文件放到HDFS (‘更接近’HBase),然后调用completebulkload

建议的策略:-检查来自HBase源代码的HFileOutputFormat2.java文件。它是标准的MapReduce OutputFormat。您实际上需要的是KeyValue元素的序列(如果我们用术语或接口的话就是Cell )。-您需要从MapReduce中释放HFileOutputFormat2。检查它的写入器逻辑。您只需要这一部分。-好的,您还需要为HFile的Put -> KeyValue流处理构建有效的解决方案。首先要看的是TotalOrderPartitionerPutSortReducer

如果你做了所有的步骤,你就有了可以采取Put序列的解决方案(从任何数据生成它们都没有问题),结果你就有了本地HFile。看起来这应该要花上一周的时间才能让一些东西正常工作。

我之所以不走这条路,是因为只要有了好的InputFormat和数据转换映射器(我很久以前就有了),我现在就可以在MapReduce框架中使用标准的TotalOrderPartitionerHFileOutputFormat2,只需使用完整的集群功能就可以让一切正常工作。对5分钟内加载的10G SQL转储感到困惑?不是我。使用单台服务器无法超越这样的速度。

好的,这个解决方案需要仔细设计SQL DB的SQL请求,以便从中执行ETL过程。但现在这已经是日常程序了。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23048784

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档