本文描述问题及解决方法同样适用于 弹性 MapReduce(EMR)。
Hive的迁移涉及两个技术点:
1. 仅迁移元数据,可参考网易云提出的思路;
2. 元数据及Hive数据全量迁移。
考虑到多数场景是迁移整个Hive数据库,该篇文章只介绍迁移的第二种,即元数据及Hive数据全量迁移。
设置hive启动默认数据库
在家目录中新建.hiverc文件,配置默认的数据库(即需要导出的数据库)
vim ~/.hiverc
use export_db;
在hdfs上创建导出目录
hdfs dfs -mkdir -p /tmp/export_db_export
导出旧集群的hive数据
生成导出脚本
hive -e "show tables;" | awk '{printf "export table %s to |/tmp/export_db_export/%s|;\n",$1,$1}' | sed "s/|/'/g" | grep -v tab_name > ~/export.hql
导出数据
hive -f ~/export.hql
下载数据
hdfs dfs -get /tmp/export_db_export ~/export_db
前提:已将导出的数据目录迁移至新集群
上传数据
hdfs dfs -put ~/export_db /tmp/export_db_export
注:这里的/tmp/export_db_export需要提前创建
我们将之前的export.hql脚本修改下就可以当做我们的import.hql脚本
cp ~/export.sql ~/import.sql
sed -i 's/export /import /g' ~/import.sql
sed -i 's/ to / from /g' ~/import.sql
这里也需要设置hive的默认数据库
vim ~/.hiverc
use import_db;
导入数据
hive -f ~/import.sql
至此Hive数据的迁移就完成.
在部分有安全控制的集群环境下,hive连接被禁用了。这时候需要使用beeline连接hive并进行数据迁移,下面给大家介绍下如何使用beeline来进行数据迁移
beeline -u jdbc:hive2://hadoop01:10000 -e "use export_db;show tables;"| awk '{printf "export table %s to |/tmp/export_db_export/%s|;\n",$2,$2}' | sed "s/|/'/g"|sed '1,3d'|sed '$d' > ~/export.hql
sed -i '1i use export_db;' ~/export.hql
beeline -u jdbc:hive2://hadoop01:10000 -n hdfs -f ~/export.hql
hadoop distcp hdfs://hadoop01:8020/tmp/export_db_export/ hdfs://hadoop02:8020/tmp/export_db_export
新的集群hdfs目录需要提前创建
cp ~/export.hql ~/import.hql
sed -i 's/export /import /g' ~/import.hql
sed -i 's/ to / from /g' ~/import.hql
sed -i '1d' ~/import.hql
sed -i '1i use import_db;' ~/import.hql
beeline -u jdbc:hive2://hadoop02:10000 -n hdfs -e "create database import_db;"
beeline -u jdbc:hive2://hadoop02:10000 -n hdfs -f ~/import.hql
至此数据迁移完成
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。