前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用Sqoop从Postgresql中导入数据到Hive中

使用Sqoop从Postgresql中导入数据到Hive中

作者头像
kongxx
发布2019-02-18 15:14:21
3.3K0
发布2019-02-18 15:14:21
举报

这里假定已经准备好了现成的Hadoop,Hive,Hbase,Zookeeper和一个postgresql数据库。

下载安装

http://mirror.bit.edu.cn/apache/sqoop/ 地址下载 sqoop 安装包,这里我使用的是1.4.7版本。

代码语言:javascript
复制
wget -c http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

解压压缩包到一个目录下

代码语言:javascript
复制
cd /apps
tar zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

配置

进入 sqoop 的 conf 目录,复制 sqoop-env-template.sh 为 sqoop-env.sh

代码语言:javascript
复制
cd /apps/sqoop-1.4.7.bin__hadoop-2.6.0/conf
cp sqoop-env-template.sh sqoop-env.sh

编辑 sqoop-env.sh 文件,其中路径根据具体位置填写

代码语言:javascript
复制
#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/apps/hadoop-2.7.7

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/apps/hadoop-2.7.7

#set the path to where bin/hbase is available
#export HBASE_HOME=/apps/hbase-2.0.4

#Set the path to where bin/hive is available
export HIVE_HOME=/apps/apache-hive-2.3.2-bin

#Set the path for where zookeper config dir is
#export ZOOCFGDIR=/apps/zookeeper-3.4.10/conf

验证安装配置

代码语言:javascript
复制
$ bin/sqoop-version
...
19/01/08 14:57:19 INFO sqoop.Sqoop: Running Sqoop version: 1.4.7
Sqoop 1.4.7
git commit id 2328971411f57f0cb683dfb79d19d4d19d185dd8
Compiled by maugli on Thu Dec 21 15:59:58 STD 2017

使用

连接 postgresql 数据库

首先需要准备 postgresql 的 jdbc 驱动包,并放入 sqoop 的根目录下。

准备数据库和表

代码语言:javascript
复制
test=> create table users
(
  id serial primary key ,
  name varchar(128),
  password varchar(128)
);
test=> insert into users values(1,'user1','password1');
test=> insert into users values(2,'user2','password2');
test=> insert into users values(3,'user3','password3');

test=> select * from users;
 id | name  | password
----+-------+-----------
  1 | user1 | password1
  2 | user2 | password2
  3 | user3 | password3
(3 rows)

查看数据库

代码语言:javascript
复制
bin/sqoop list-databases --connect jdbc:postgresql://localhost:5432 --username test --password test
...
postgres
hive
test

查看数据库中表

代码语言:javascript
复制
bin/sqoop list-tables --connect jdbc:postgresql://localhost:5432/test --username test --password test
...
users

查看数据表中数据

代码语言:javascript
复制
bin/sqoop eval --connect jdbc:postgresql://localhost:5432/test --username test --password test -e 'select * from users'
-------------------------------------------------------------
| id          | name                 | password             |
-------------------------------------------------------------
| 1           | user1                | password1            |
| 2           | user2                | password2            |
| 3           | user3                | password3            |
-------------------------------------------------------------

从 postgresql 向 HDFS 导入数据

代码语言:javascript
复制
# 导入数据到默认目录
$ bin/sqoop import --connect jdbc:postgresql://localhost:5432/test --username test  --password test --table users --m 1

# 查看hdfs文件系统
$ hdfs dfs -ls /user/kongxx/
drwxr-xr-x   - kongxx supergroup          0 2019-01-09 00:06 /user/kongxx/users

# 查看hdfs文件内容
$ hdfs dfs -cat /user/kongxx/users/*
1,user1,password1
2,user2,password2
3,user3,password3

# 导入数据到指定目录
$ bin/sqoop import --connect jdbc:postgresql://localhost:5432/test --username test --password test --table users --target-dir /user/kongxx/users2 --m 1

# 查看hdfs文件系统
$ hdfs dfs -ls /user/kongxx/
drwxr-xr-x   - kongxx supergroup          0 2019-01-09 00:06 /user/kongxx/users
drwxr-xr-x   - kongxx supergroup          0 2019-01-09 00:21 /user/kongxx/users2

# 查看hdfs文件内容
$ hdfs dfs -cat /user/kongxx/users2/*
1,user1,password1
2,user2,password2
3,user3,password3

# 导入使用查询语句查询的数据到指定目录,并指定分隔符
$ bin/sqoop import --connect jdbc:postgresql://localhost:5432/test --username test --password test --query 'select * from users where $CONDITIONS and 1=1' --target-dir /user/kongxx/users3 --fields-terminated-by '\t' --m 1

# 查看hdfs文件内容
$ hdfs dfs -cat /user/kongxx/users3/*
1   user1   password1
2   user2   password2
3   user3   password3

从 postgresql 向 Hive导入数据

在使用Hive前,需要在 sqoop 的根目录下创建一个 hive-exec.jar 的软连接,如下:

代码语言:javascript
复制
ln -s /apps/apache-hive-2.3.2-bin/lib/hive-exec-2.3.2.jar

向 Hive 中导入数据

代码语言:javascript
复制
# 导入数据到 hive 中 (也可以指定 Hive 中的数据库,表和使用增量导入方式)
$ bin/sqoop import --connect jdbc:postgresql://localhost:5432/test --username test --password test --table users --hive-import --hive-overwrite --lines-terminated-by "\n" --fields-terminated-by "\t" --m 1

# 查看数据文件
$ bin/hdfs dfs -cat /user/hive/warehouse/users/*
1   user1   password1
2   user2   password2
3   user3   password3

在 Hive 中查看数据

代码语言:javascript
复制
$ hive

hive> show tables;
OK
users

hive> select * from users;
OK
1   user1   password1
2   user2   password2
3   user3   password3
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019.01.10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 下载安装
  • 配置
  • 使用
    • 连接 postgresql 数据库
      • 从 postgresql 向 HDFS 导入数据
        • 从 postgresql 向 Hive导入数据
        相关产品与服务
        数据库
        云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档