Hadoop+Hbase集群数据迁移问题

我是攻城师

发布于 2018-05-14 16:04:14

1.6K0

发布于 2018-05-14 16:04:14

文章被收录于专栏：我是攻城师

数据迁移或备份是任何一个公司都有可能到遇到的一件事，有关hbase数据迁移，官网也给出了几种方案，这里比较推荐使用hadoop distcp这种方式迁移。比较适合大数据量或者跨版本集群之间的数据迁移服务。版本 Hadoop2.7.1 Hbase0.98.12 今天在迁移同版本的hbase数据时，在使用Hadoop distcp时发现下图的一个问题：

这个错误时，是由于源文件的大小与目标文件大小不一致造成的，出现这个问题的原因不明确，然后在网上google查找类似错误，发现没有一样的例子，有的都是关于crc文件校验和不匹配的问题，而上述错误，则是文件大小不一致，重试3次之后，都是类似错误，所以试着去hadoop的官网文档找答案，发现官网文档distcp里面有个update的参数，官网解释如下：

什么意思呢？意思是如果再拷贝过程中，源文件和目标文件出现大小，块大小或者是校验和不一致的情况，会强制使用源文件替换目标文件，不到万不得己的时候不要使用，使用这个需要谨慎，因为它可能会改变目标路径。举个例子：假设现在有A集群数据要迁移到B集群数据，并且Hbase的结构目录保持一致： A集群数据迁移的目录如下：

Java代码

/data/01/a
/data/01/b
/data/01/c
/data/01/d
/data/01/e

理想情况下，B集群迁移过去的目录是跟A集群的目录一致：

Java代码

/data/01/a
/data/01/b
/data/01/c
/data/01/d
/data/01/e

但由于使用了-update之后，很有可能变成下面的目录结构：

Java代码

/data/01
/data/a
/data/b
/data/c
/data/d
/data/e

出现这种情况，在update的文档已经描述了，因为使用这个命令时，会强制保留源文件的任何信息包括路径，这样以来才能100%保证拷贝过来的数据是不能发生任何变化的，虽然目录错位了，但是数据正确，可以通过一个小窍门解决这个问题，在拷贝的时候，如果已经知道某个job会出现这种情况，就提前将其目录的路径填写完整，这样就不用再手动移动文件到正确的目录里面了。比如原来我的迁移命令是这样的：

Java代码

hadoop distcp hdfs://10.0.0.100:8020/hbase/data/default/ETLDB hdfs://10.0.0.101:8020/hbase/data/default

可以正确迁移数据，但如果使用了update后，应该使用下面的路径，注意目标路径上加了表名，如果不存在，如果提前创建下

Java代码

hadoop distcp -update hdfs://10.0.0.100:8020/hbase/data/default/ETLDB hdfs://10.0.0.101:8020/hbase/data/default/ETLDB

试想一个，如果你的hbase表有10000多个region，那么则意味着，你需要处理这10000个错位的目录到正确的目录里面，虽然写个脚本也能自动化处理，但是这样的耗时也挺长，而且谁能保证，脚本不会出现问题，所以不推荐事后修补的方式。迁移完成之后，启动hbase集群服务，并执行如下的两个命令，恢复元数据，否则hbase集群不会识别新迁移过来的表:

Java代码

./hbase hbck -fix
./hbase hbck -repairHoles

总结：（1）出现问题，不用紧张，可以先google找类似异常，如果没有则需要多看官网的distcp文档参数的介绍，注意文档的版本和你的hadoop的版本需要一致，否则有些参数可能已经废弃，过时，或者不支持。（2）如果distcp一个很大的目录时，出现 xxx file not exist 的IO异常，可以试着减少拷贝的文件目录数量，如果还是不能通过，则需要回到1方式查找问题，大部分情况下，我们拷贝一个很少数量的目录时，是不容易出现问题的。参考文档： http://hadoop.apache.org/docs/r2.7.1/hadoop-distcp/DistCp.html

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-03-23，如有侵权请联系 cloudcommunity@tencent.com 删除

hbase