通过Sqoop将MySQL数据导入到HDFS/HBase

本文将利用Sqoop将MySQL海量测试数据导入到HDFS和HBase。

一、安装Sqoop

1、下载sqoop,解压、文件夹重命名

wget http://mirror.bit.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

tar -zxvf sqoop-1.4.6.bin_hadoop-2.0.4.alpha.tar.gz  -C /root/hadoop/

mv sqoop-1.4.6.bin_hadoop-2.0.4.alpha sqoop-1.4.6

2、配置环境变量

vim /etc/profile
export SQOOP_HOME=/root/hadoop/sqoop-1.4.6

export PATH = $PATH:$SQOOP_HME/bin

3、验证

若正常显示Sqoop版本信息,则安装配置成功:

[root@localhost ~ ] # sqoop version

二、创建数据库和表

安装MySql后,创建测试数据库和测试表。

数据库名:test

表结构:point(pointId int(10) PRIMARYKEY,pointName varchar(16),pointValue int(10))

三、shell脚本生成测试数据

编写Shell脚本,此处的插入语句需要根据所创建的表结构来修改:

#!/bin/bash
i=1;
MAX_INSERT_ROW_COUONT=$1;
while(( $i <= $MAX_INSERT_ROW_COUNT ))
do
    mysql -uhive -phive test -e "insert into test.point(pointId,pointName,pointValue) values($i,'point"$i"',$i);"
    i=(($i+1))
done
exit 0

四、MySql数据导入

1、导入HDFS

sqoop import --connect jdbc:mysql://localhost:3306/test --username hive --password hive  --table 
point
参数解析:

import:表示从传统数据库导入数据到 HDFS/HIVE/HBASE等;

–connect:建立数据库连接;

jdbc:mysql://localhost:3306/test:使用jdbc方式连接mysql数据库,数据库名为test;

–username:指定数据库用户名;

–password:指定数据库密码;

–table:指定表名

注意: a)HDFS输出目录不能已经存在; b)没有指定-m或者splite-by时,即没有指定并行度时,要导入的表必须有主键,否则会出错。 c)导入到指定目录:sqoop import –connect jdbc:mysql://localhost:3306/test –username hive –password hive –table point –target-dir /directory

如果没有指定输出目录,默认在/user/root/下创建一个与表名一致的子目录作为输出目录,导入操作执行后,查看HDFS中是否有导入的文件:

hdfs dfs -ls /user/root/point/

2、导入HBase

sqoop import --connect jdbc:mysql://localhost:3306/test --username root --password root --table 
point --hbase-table HPoint --column-family info --hbase-row-key pointId --hbase-create-table
参数解析:

–hbase-table:指定导入到HBase数据库中某表;

–column-family:指定列族名;

–hbase-row-key:指定rowKey;

–hbase-create-table:表示按照参数创建HBase中的表;

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏乐沙弥的世界

Linux/Unix shell 自动 FTP 备份档案

       使用shell脚本实现对Oracle数据库的监控与管理将大大简化DBA的工作负担,如常见的对实例的监控,监听的监控,告警日志的监控,以及数据库的备...

571
来自专栏乐沙弥的世界

ORA-00254/ORA-15173 Archive_log Directory On Asm Being Deleted

    最近的RAC环境中遭遇ORA-00254,ORA-15173,即无法进行归档。通常情况下归档失败我们考虑更多的是归档路径的不可达,或归档所在的磁盘空间不...

803
来自专栏乐沙弥的世界

Linux/Unix shell 监控Oracle告警日志(monitor alter log file)

    使用shell脚本实现对Oracle数据库的监控与管理将大大简化DBA的工作负担,如常见的对实例的监控,监听的监控,告警日志的监控,以及数据库的备份,A...

642
来自专栏乐沙弥的世界

加强MySQL用户安全

   很多亲们在安装好了MySQL数据库之后,对于mysql用户表并没有做任何特殊的处理,因此缺省情况下,存在密码为空的用户,也有很多用户名和密码都为空的情形...

591
来自专栏菩提树下的杨过

Spring Security笔记:使用数据库进行用户认证(form login using database)

在前一节,学习了如何自定义登录页,但是用户名、密码仍然是配置在xml中的,这样显然太非主流,本节将学习如何把用户名/密码/角色存储在db中,通过db来实现用户认...

751
来自专栏bboysoul

网站信息收集工具RED_HAWK

安装使用很简单,首先安装上php,然后git clone下来用php运行就好了 git clone https://github.com/Tuhinshubh...

692
来自专栏Netkiller

Linux 系统与数据库安全

目录 1. 帐号安全 1.1. Shell 安全 1.2. .history 文件 2. 临时文件安全 3. 其他安全问题 4. 防火墙配置 5. 数据库安全 ...

3515
来自专栏乐沙弥的世界

基于RMAN从活动数据库异机克隆(rman duplicate from active DB)

      Oracle 11g RMAN能够实现基于活动数据库进行异机克隆,从而省去需要先备份再ftp到辅助服务器的过程。这一切可以全部交给Oracle来搞定...

953

在CentOS 6上使用Postfix,Dovecot和MySQL发送电子邮件

Postfix 邮件传输代理(MTA)是一种高性能的开源电子邮件服务器系统。本指南将帮助你在CentOS 6 Linode上运行 Postfix,使用 Dove...

1055
来自专栏GopherCoder

sqlite 的分布式实现方案:rqlite

2474

扫码关注云+社区