大容量加载通常使用map reduce在HDFS上创建一个文件,然后将该文件与一个区域相关联。
如果是这样,我的客户端是否可以(在本地)创建此文件并将其放到hdfs上。因为我们已经知道键是什么,值是什么,所以我们可以在本地执行此操作,而无需加载服务器。谁能举出一个例子,hfile是如何创建的(任何语言都可以)
问候
发布于 2014-04-27 00:53:30
实际上,没有什么能阻止任何人“手工”准备HFile,但这样做会导致HFile兼容性问题。根据这个(https://hbase.apache.org/book/arch.bulk.load.html),你只需要把你的文件放到HDFS (‘更接近’HBase),然后调用completebulkload。
建议的策略:-检查来自HBase源代码的HFileOutputFormat2.java文件。它是标准的MapReduce OutputFormat。您实际上需要的是KeyValue元素的序列(如果我们用术语或接口的话就是Cell )。-您需要从MapReduce中释放HFileOutputFormat2。检查它的写入器逻辑。您只需要这一部分。-好的,您还需要为HFile的Put -> KeyValue流处理构建有效的解决方案。首先要看的是TotalOrderPartitioner和PutSortReducer。
如果你做了所有的步骤,你就有了可以采取Put序列的解决方案(从任何数据生成它们都没有问题),结果你就有了本地HFile。看起来这应该要花上一周的时间才能让一些东西正常工作。
我之所以不走这条路,是因为只要有了好的InputFormat和数据转换映射器(我很久以前就有了),我现在就可以在MapReduce框架中使用标准的TotalOrderPartitioner和HFileOutputFormat2,只需使用完整的集群功能就可以让一切正常工作。对5分钟内加载的10G SQL转储感到困惑?不是我。使用单台服务器无法超越这样的速度。
好的,这个解决方案需要仔细设计SQL DB的SQL请求,以便从中执行ETL过程。但现在这已经是日常程序了。
https://stackoverflow.com/questions/23048784
复制相似问题