我需要导入维基百科转储(mysql表,解压的文件需要大约50 to )到Hadoop(hbase)。现在,我首先将dump加载到mysql中,然后将数据从mysql传输到hadoop。但是将数据加载到mysql需要大量的时间--大约4-7天。是否可以将mysql转储直接加载到hadoop中(通过转储文件解析器或其他类似工具)?
发布于 2012-11-13 23:48:24
据我所知- MySQL转储几乎完全是一组insert语句。您可以在您的映射器中解析它们,并按原样进行处理...如果你只有几个表,那么java中的硬代码解析应该很简单。
发布于 2012-11-15 23:08:11
使用sqoop。一个工具,用于将mysql数据导入到HDFS中,并带有map reduce作业。
这很方便。
https://stackoverflow.com/questions/13362596
复制相似问题