实际上，没有什么能阻止任何人“手工”准备HFile，但这样做会导致HFile兼容性问题。根据这个(https://hbase.apache.org/book/arch.bulk.load.html)，你只需要把你的文件放到HDFS (‘更接近’HBase)，然后调用completebulkload。

建议的策略：-检查来自HBase源代码的HFileOutputFormat2.java文件。它是标准的MapReduce OutputFormat。您实际上需要的是KeyValue元素的序列(如果我们用术语或接口的话就是Cell )。-您需要从MapReduce中释放HFileOutputFormat2。检查它的写入器逻辑。您只需要这一部分。-好的，您还需要为HFile的Put -> KeyValue流处理构建有效的解决方案。首先要看的是TotalOrderPartitioner和PutSortReducer。

如果你做了所有的步骤，你就有了可以采取Put序列的解决方案(从任何数据生成它们都没有问题)，结果你就有了本地HFile。看起来这应该要花上一周的时间才能让一些东西正常工作。

我之所以不走这条路，是因为只要有了好的InputFormat和数据转换映射器(我很久以前就有了)，我现在就可以在MapReduce框架中使用标准的TotalOrderPartitioner和HFileOutputFormat2，只需使用完整的集群功能就可以让一切正常工作。对5分钟内加载的10G SQL转储感到困惑？不是我。使用单台服务器无法超越这样的速度。

好的，这个解决方案需要仔细设计SQL DB的SQL请求，以便从中执行ETL过程。但现在这已经是日常程序了。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23048784

复制

相似问题

问HBASE :批量加载(我的理解正确吗)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问HBASE :批量加载(我的理解正确吗)EN