使用Sqoop从MySQL导入数据

MySQL表导入到HDFS

导入loudacre数据库中的account表到HDFS

sqoop import \
--connect jdbc:mysql://localhost/loudacre \
--username training --password training \
--table accounts \
--target-dir /loudacre/accounts \
--null-non-string '\\N'

增量更新导入到HDFS

--check-column <column name> 检查的增量更新的列

--last-value <largest_column_num> 检查的列中的上一个导入的值

sqoop import \
--connect jdbc:mysql://localhost/loudacre \
--username training --password training \
--incremental append \
--null-non-string '\\N' \
--table accounts \
--target-dir /loudacre/accounts \
--check-column acct_num \
--last-value <largest_acct_num>

指定的字段分隔符导入到HDFS

--fields-terminated-by <char> 表示要进行设置的字段分隔符,默认是",",这里我们可以用制表符"\t"

sqoop import \
--connect jdbc:mysql://localhost/loudacre \
--username training --password training \
--table webpage \
--target-dir /loudacre/webpage \
--fields-terminated-by "\t"

特定条件的数据导入到HDFS

可用--where <where clause> 来指定要导入的条件

sqoop import \
--connect jdbc:mysql://localhost/loudacre \
--username training --password training \
--table accounts \
--where "state = 'CA' and acct_close_dt IS NULL" \
--target-dir /loudacre/accounts-active  \
--null-non-string '\\N'

将MySQL数据导入到Hive中

使用--hive-import 可将表导入到Hive中

sqoop import \
--connect jdbc:mysql://localhost/loudacre \
--username training --password training \
--fields-terminated-by '\t' \
--table device \
--hive-import

使用avro的格式导入到HDFS

使用--as-avrodatafile可将导入数据格式化成avro

sqoop import \
--connect jdbc:mysql://localhost/loudacre \
--username training --password training \
--table accounts \
--target-dir /loudacre/accounts-avro  \
--null-non-string '\N' \
--as-avrodatafile

使用parquet的格式导入到HDFS

使用--as-parquetfile可将导入数据格式化成parquet

sqoop import \
--connect jdbc:mysql://localhost/loudacre \
--username training --password training \
--table accounts \
--target-dir /loudacre/accounts-parquet  \
--null-non-string '\N' \
--as-parquetfile

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据学习笔记

Spark2.x学习笔记:17、Spark Streaming之HdfsWordCount 学习

Spark2.x学习笔记:17、Spark Streaming之HdfsWordCount 学习 17.1 HdfsWordCount 源码解析 // scal...

25810
来自专栏Hadoop实操

如何使用Hue创建Spark1和Spark2的Oozie工作流

使用Hue可以方便的通过界面制定Oozie的工作流,支持Hive、Pig、Spark、Java、Sqoop、MapReduce、Shell等等。Spark?那能...

2.8K7
来自专栏Albert陈凯

Spark系列课程-00xxSpark任务调度疑问,生成有向无环图的这个东西叫什么名字?

下面我们一起来看一下Spark的任务调度 ? Spark任务调度.png 首先最左边的叫做RDD Object就是一个一个的RDD对象 一个一个的RDD对象,...

44714
来自专栏Hadoop实操

SparkStreaming读Kafka数据写Kudu

1.9K2
来自专栏大数据学习笔记

Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.3 Hive 快速入门)

第11章 Hive:SQL on Hadoop 11.3 Hive快速入门 11.3.1 HQL介绍 Hive查询语言(Hive QL,可以简称HQL)的语法和...

26410
来自专栏Hongten

hadoop2-hive的安装和测试

========================================================

993
来自专栏码匠的流水账

kafka0.8生产者实例

1641
来自专栏Hadoop实操

Spark2Streaming读非Kerberos环境的Kafka并写数据到Kudu

在前面的文章Fayson介绍了在Kerberos环境下《Spark2Streaming读Kerberos环境的Kafka并写数据到Kudu》,本篇文章Fayso...

3531
来自专栏祝威廉

Spark 2.0 Structured Streaming 分析

Spark 2.0 将流式计算也统一到DataFrame里去了,提出了Structured Streaming的概念,将数据源映射为一张无线长度的表,同时将流式...

1383
来自专栏Hadoop实操

Spark2Streaming读Kerberos环境的Kafka并写数据到Hive

在前面的文章Fayson介绍了一些关于Spark2Streaming的示例如《Spark2Streaming读Kerberos环境的Kafka并写数据到HBas...

1K3

扫码关注云+社区

领取腾讯云代金券