我需要导入维基百科转储(mysql表,解压的文件需要大约50 to )到Hadoop(hbase)。现在,我首先将dump加载到mysql中,然后将数据从mysql传输到hadoop。但是将数据加载到mysql需要大量的时间--大约4-7天。是否可以将mysql转储直接加载到hadoop中(通过转储文件解析器或其他类似工具)?
我正在尝试在mysql数据库中装载数据,但是遇到了类强制转换异常错误,下面是我使用的过程:
我首先创建了一个实现Writable和DBWritable接口的DBWritable类。然后,我使用还原作业在数据库中写入数据,但是当我运行作业时,它失败了,因为它说有一个错误:
java.lang.ClassCastException: com.amalwa.hadoop.DataBaseLoadMapReduce.DBOutputWritable cannot be cast to org.apache.hadoop.mapreduce.lib.db.DBWritable
at org.apach
当我试图从mysql提取数据到hadoop时,我正在编写这个命令。
sudo import --connect jdbc:mysql://localhost/naresh --table marks --username root --password root
我得到了这个错误
13/09/04 17:00:43 WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead.
13/09/04 17:00:43 INFO manager.MyS