我正在抓取不同的行业数据,并将数据存储到单个hbase表中。例如,我正在抓取电子和计算机行业,并将其存储在一个名为‘industries _tbl’的表中。现在,我想在电子和计算机行业的数据集上运行map reduce,并使用收集的不同数据集生成减速器输出,但目前hbase正在获取这两个行业的全部数据,并给出我无法按行业区分的缩减结果。
关于如何解决这个问题,有什么帮助或想法吗?
发布于 2011-12-31 12:38:55
将行业作为您在映射器中发出的键的一部分。
发布于 2012-01-01 04:11:19
使行业成为hbase密钥中最重要的部分,并将其传递给您为map-reduce定义的扫描
发布于 2012-03-23 21:35:03
您还可以在Hbase表上执行列扫描。为此,请将特定行业的所有信息放在特定行业列系列下。
例如,我的行业表可能如下所示。
对于给定的行: cf1-science cf2-technology等。
这样,您的行业数据将被紧密地划分到特定的区域,从而缩短您的查询时间。
现在,我只需使用scan api进行查询,并包含要扫描的特定列族。
因此,扫描将只返回与特定行业相关的详细信息。
本例中的行将保持与以前相同的行数。
希望这个解释能有所帮助。
https://stackoverflow.com/questions/8679117
复制相似问题