前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >0792-5.16.2-如何通过Hive跨集群迁移Kudu表

0792-5.16.2-如何通过Hive跨集群迁移Kudu表

作者头像
Fayson
发布2020-07-29 09:52:20
1.6K0
发布2020-07-29 09:52:20
举报
文章被收录于专栏:Hadoop实操Hadoop实操

文档编写目的

在日常使用中你的Kudu 集群版本非常低或者部署在其他非CDH集群中,迁移起来非常麻烦。本文主要介绍如何通过Hive 进行跨集群迁移Kudu 表

  • 测试环境:

1.原集群版本CDH 5.16.2、Kudu 1.7

2.目标集群版本CDP 7.1.1 、Kudu 1.12

操作步骤

1、首先查看原表结构如下:

代码语言:javascript
复制
show create table default.test_tbl;

查询表数据

代码语言:javascript
复制
select * from default.test limit 10;

然后导出表数据为csv文件并查看,注:impala 25003 端口由于启用了负载均衡的

代码语言:javascript
复制
impala-shell -i xxxcli1:25003 -q "select * from default.test_tbl" -B -output_delimiter="," -o test_tbl_kudu.csv 

将导出的数据文件拷贝到其他集群的节点,通过HDFS distcp或者直接本地拷贝都可以,这里测试使用的本地拷贝

代码语言:javascript
复制
scp -rp test_tbl_kudu.csv root@xxx01kf:/tmp/
cat test_tbl_kudu.csv

在CDP7.1.1 的新集群中创建Hive表

代码语言:javascript
复制
CREATE TABLE default.test_tbl (id INT,name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

load csv 文件数据导入到刚刚新建的Hive表中,这里使用本地load 的方式

代码语言:javascript
复制
load data local inpath  '/tmp/test_tbl_kudu.csv' into table default.test_tbl;

在CDP7.1.1 的新集群中创建kudu 表,注:新集群这里没有启用负载均衡故端口为21000

代码语言:javascript
复制
#在新集群的节点执行命令进入impala-shell 命令行
impala-shell -i xxxx05kf:21000
#创建kudu 表
CREATE TABLE default.test_tbl2 (
   id INT NOT NULL ENCODING AUTO_ENCODING COMPRESSION DEFAULT_COMPRESSION,
   name STRING NULL ENCODING AUTO_ENCODING COMPRESSION DEFAULT_COMPRESSION,
   PRIMARY KEY (id)
 )
 PARTITION BY HASH (id) PARTITIONS 16
 STORED AS KUDU;

从Hive 表中查询并导入数据到新建的Kudu 表中,记得先在Impala 中进行refresh 操作,否则会没有数据,然后进行查询,验证并成功完成迁移

代码语言:javascript
复制
refresh default.test_tbl;
insert into default.test_tbl2 select * from default.test_tbl;
select * from default.test_tbl2;

总结

本文讲述通过Hive 进行跨集群迁移Kudu 表是一种效率较低但是非常通用的方式,在后面的文章中Fayson 将讲述如何通过Kudu 自带的Kudu Command Line Tools 进行Kudu 表迁移。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
负载均衡
负载均衡(Cloud Load Balancer,CLB)提供安全快捷的流量分发服务,访问流量经由 CLB 可以自动分配到云中的多台后端服务器上,扩展系统的服务能力并消除单点故障。负载均衡支持亿级连接和千万级并发,可轻松应对大流量访问,满足业务需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档