Hive跨集群数据迁移过程

火之高兴

发布于 2024-07-25 15:35:05

450

发布于 2024-07-25 15:35:05

文章被收录于专栏：大数据应用技术

本次迁移数据100G，15亿条，数据流转方向从集群A经过跳转机到集群B，通过HDFS拉取和重新建表导入的方式完成数据库迁移。

- 当前操作在集群A

- 当前操作在跳转机

获取1.②位置之后，通过hdfs hds -du -h命令检查原始表数据在HDFS中的存储大小，确认是否能拉取到跳转机；
执行df -h检查跳转机可用存储空间，执行hdfs dfs -get命令，将存储的数据库源文件从集群A的HDFS拉取到跳转机本地；
执行ls | wc -l命令，检查拉取的数据库源文件数量，此步骤操作是为了校验文件数量；
如果不是压缩存储的文件，比如CSV,请执行head命令，查看源文件首行是否包含表字段，如果包含表字段，需要在建表时添加TBLPROPERTIES ('skip.header.line.count'='1');
执行hdfs dfs -put命令，将数据库源文件上传至集群B的HDFS，并执行hdfs hds -du -h检查存储大小是否一致，请提前mkdir准备好存储目录；

- 当前操作在集群B

不指定格式
InputFormat	org.apache.hadoop.hive.ql.io.RCFileInputFormat
OutputFormat	org.apache.hadoop.hive.ql.io.RCFileOutputFormat

指定TEXTFILE格式
InputFormat	org.apache.hadoop.mapred.TextInputFormat
OutputFormat	org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

本次迁移方案数据源文件为.snappy.parquet压缩存储格式，新建的表为TEXTFILE格式，指定了分隔符为,;

通过beeline执行LOAD DATA INPATH 'hdfs location' into table table_name命令，将HDFS中的数据源文件导入Hive表，至此完成迁移；
若对存储格式在后续有新的需求，可以在完成导入后，通过创建新的附带存储格式的表，再执行insert overwrite table table_name_new select * from table_name_old;命令，完成Hive存储格式的转换；
对于数据完整性、一致性的考虑：可以在完成后再次执行count（*），校验数据量，此方法是为了避免出现因格式不同，忽略CSV首行字段问题，或者建表语句错误，剔除了有效数据导致数据缺失的危险行为。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2024-07-25，如有侵权请联系 cloudcommunity@tencent.com 删除